برنامه نویسی

بهترین تصویر منبع باز CogVideoX1.5-5B-I2V بسیار مناسب است و برای VRAM کم بهینه شده است.

https://www.youtube.com/watch?v=5UCkMzP2VLE

بهترین تصویر منبع باز تصویر به ویدیو CogVideoX1.5-5B-I2V بسیار مناسب است و برای ماشین های VRAM کم با وضوح بالا بهینه شده است – وضوح اصلی 1360 پیکسل و حداکثر 10 ثانیه 161 فریم است – صداهای تولید شده با مدل صوتی منبع باز جدید

منابع و جزئیات برای تولید تصویر به ویدیو CogVideoX1.5–5B-I2V

این بخش یک نمای کلی از منابع، ابزارها و تنظیماتی را که من هنگام کار با مدل CogVideoX1.5–5B-I2V برای تولید تصویر به ویدیو استفاده کردم، ارائه می‌کند.

فیلم آموزشی و راهنمای نصب:

  • 1- روی Installers کلیک کنید: برای راه‌اندازی ساده، نصب‌کننده‌های 1-Click را برای محیط‌های Windows، RunPod و Massed Compute ایجاد کرده‌ام. اینها در دسترس هستند: https://www.patreon.com/posts/112848192. توجه: این نصب کننده ها مدل را در محیط مجازی پایتون 3.11 (VENV) راه اندازی می کنند.

مخازن مدل و درخواست ها:

پیکربندی و بهینه سازی:

  • تنظیمات ویدئو: من با استفاده از تصاویر با وضوح 1360×768 پیکسل در 16 فریم در ثانیه برای 81 فریم ویدیوها را تولید کردم (که منجر به ویدیوهای تقریباً 5 ثانیه‌ای، از جمله فریم اولیه) شد.

  • بهینه سازی های فعال: من از بهینه سازی های زیر که در صفحه Hugging Face توصیه شده است استفاده کردم:

  • pipe.enable_sequential_cpu_offload()

  • pipe.vae.enable_slicing()

  • pipe.vae.enable_tiling()

  • کوانتیزاسیون: من از کوانتیزاسیون int8_weight_only استفاده کردم. توجه داشته باشید که TorchAO مورد نیاز است و DeepSpeed ​​به طور موثر در ویندوز با Python 3.11 VENV کار می کند.

تولید صدا:

  • مدل MMAaudio: برای افزودن صدا به ویدیوهای تولید شده، از مدل MMAudio استفاده کردم: https://github.com/hkchengrex/MMAudio

  • نصب کننده های MMAudio: 1- نصب کننده های کلیکی برای MMAudio (ویندوز، ران پاد، محاسبات جمعی) در دسترس هستند: https://www.patreon.com/posts/117990364. توجه: این نصب کننده ها از Python 3.10 VENV استفاده می کنند.

  • درخواست MMAudio: من از دستورات ساده برای تولید صدا استفاده کردم. توجه داشته باشید که وقتی ویدیوی ورودی حاوی پیکره‌های انسانی باشد، MMAudio ممکن است دچار مشکل شود. در چنین مواردی، استفاده از جایگزین های متن به صدا را در نظر بگیرید.

مشاهدات استفاده از VRAM:

من CogVideoX1.5–5B-I2V را با وضوح‌ها و تعداد فریم‌های مختلف آزمایش کردم تا میزان استفاده از VRAM را تعیین کنم. در اینجا برخی از یافته‌های من آمده است (توجه داشته باشید که پردازنده‌های گرافیکی VRAM پایین‌تر ممکن است همچنان کار کنند، اگرچه کندتر):

  • 512×288 (41 فریم): ~ 7700 مگابایت

  • 576×320 (41 فریم): ~ 7900 مگابایت

  • 576×320 (81 فریم): ~8850 مگابایت

  • 704×384 (81 فریم): ~8950 مگابایت

  • 768×432 (81 فریم): ~ 10600 مگابایت

  • 896×496 (81 فریم): ~ 12050 مگابایت

  • 960×528 (81 فریم): ~ 12850 مگابایت

  • 1024×576 (81 فریم): ~ 13900 مگابایت

  • 1280×720 (81 فریم): ~ 17950 مگابایت

  • 1360×768 (81 فریم): ~ 19000 مگابایت

اپلیکیشن Gradio:

برنامه Gradio ما بسیار پیشرفته است و عملکرد بی عیب و نقصی دارد.

https%3A%2F%2Fmedia.licdn

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا