بهترین تصویر منبع باز CogVideoX1.5-5B-I2V بسیار مناسب است و برای VRAM کم بهینه شده است.

https://www.youtube.com/watch?v=5UCkMzP2VLE
بهترین تصویر منبع باز تصویر به ویدیو CogVideoX1.5-5B-I2V بسیار مناسب است و برای ماشین های VRAM کم با وضوح بالا بهینه شده است – وضوح اصلی 1360 پیکسل و حداکثر 10 ثانیه 161 فریم است – صداهای تولید شده با مدل صوتی منبع باز جدید
منابع و جزئیات برای تولید تصویر به ویدیو CogVideoX1.5–5B-I2V
این بخش یک نمای کلی از منابع، ابزارها و تنظیماتی را که من هنگام کار با مدل CogVideoX1.5–5B-I2V برای تولید تصویر به ویدیو استفاده کردم، ارائه میکند.
فیلم آموزشی و راهنمای نصب:
-
1- روی Installers کلیک کنید: برای راهاندازی ساده، نصبکنندههای 1-Click را برای محیطهای Windows، RunPod و Massed Compute ایجاد کردهام. اینها در دسترس هستند: https://www.patreon.com/posts/112848192. توجه: این نصب کننده ها مدل را در محیط مجازی پایتون 3.11 (VENV) راه اندازی می کنند.
مخازن مدل و درخواست ها:
پیکربندی و بهینه سازی:
-
تنظیمات ویدئو: من با استفاده از تصاویر با وضوح 1360×768 پیکسل در 16 فریم در ثانیه برای 81 فریم ویدیوها را تولید کردم (که منجر به ویدیوهای تقریباً 5 ثانیهای، از جمله فریم اولیه) شد.
-
بهینه سازی های فعال: من از بهینه سازی های زیر که در صفحه Hugging Face توصیه شده است استفاده کردم:
-
pipe.enable_sequential_cpu_offload()
-
pipe.vae.enable_slicing()
-
pipe.vae.enable_tiling()
-
کوانتیزاسیون: من از کوانتیزاسیون int8_weight_only استفاده کردم. توجه داشته باشید که TorchAO مورد نیاز است و DeepSpeed به طور موثر در ویندوز با Python 3.11 VENV کار می کند.
تولید صدا:
-
مدل MMAaudio: برای افزودن صدا به ویدیوهای تولید شده، از مدل MMAudio استفاده کردم: https://github.com/hkchengrex/MMAudio
-
نصب کننده های MMAudio: 1- نصب کننده های کلیکی برای MMAudio (ویندوز، ران پاد، محاسبات جمعی) در دسترس هستند: https://www.patreon.com/posts/117990364. توجه: این نصب کننده ها از Python 3.10 VENV استفاده می کنند.
-
درخواست MMAudio: من از دستورات ساده برای تولید صدا استفاده کردم. توجه داشته باشید که وقتی ویدیوی ورودی حاوی پیکرههای انسانی باشد، MMAudio ممکن است دچار مشکل شود. در چنین مواردی، استفاده از جایگزین های متن به صدا را در نظر بگیرید.
مشاهدات استفاده از VRAM:
من CogVideoX1.5–5B-I2V را با وضوحها و تعداد فریمهای مختلف آزمایش کردم تا میزان استفاده از VRAM را تعیین کنم. در اینجا برخی از یافتههای من آمده است (توجه داشته باشید که پردازندههای گرافیکی VRAM پایینتر ممکن است همچنان کار کنند، اگرچه کندتر):
-
512×288 (41 فریم): ~ 7700 مگابایت
-
576×320 (41 فریم): ~ 7900 مگابایت
-
576×320 (81 فریم): ~8850 مگابایت
-
704×384 (81 فریم): ~8950 مگابایت
-
768×432 (81 فریم): ~ 10600 مگابایت
-
896×496 (81 فریم): ~ 12050 مگابایت
-
960×528 (81 فریم): ~ 12850 مگابایت
-
1024×576 (81 فریم): ~ 13900 مگابایت
-
1280×720 (81 فریم): ~ 17950 مگابایت
-
1360×768 (81 فریم): ~ 19000 مگابایت
اپلیکیشن Gradio:
برنامه Gradio ما بسیار پیشرفته است و عملکرد بی عیب و نقصی دارد.