برنامه نویسی

WAN 2.1

مقدمه WAN 2.1

WAN 2.1 یک مجموعه پیشرفته مدل AI منبع باز است که توسط Alibaba ساخته شده است ، که برای تولید ویدیویی و تصویر با کیفیت بالا طراحی شده است. این یک جهش قابل توجه به جلو در قابلیت های هوش مصنوعی چند حالته است که شامل تکنیک های پیشرفته در درک بصری و تولید است. در این مقاله مروری بر WAN 2.1 ، ویژگی های آن ، معماری فنی و برنامه های کاربردی ارائه شده است.

نمای کلی

WAN 2.1 بر روی سری قبلی Tongyi Alibaba ، به طور خاص مدل Tongyi Wanxiang (WANX) معرفی شده در ژوئیه 2023 ساخته شده است. آخرین تکرار شامل یک سری نوآوری ها ، از جمله یک اتوآنمان متغیر فضایی جدید (VAE) ، استراتژی های آموزش مقیاس پذیر ، ساخت داده های بزرگ ، ساخت و ساز داده های بزرگ ، و Metratues Methratues ارزیابی است. این پیشرفت ها باعث افزایش عملکرد و تطبیق پذیری مدل می شود و آن را به یک راه حل پیشرو در زمینه ایجاد محتوای بصری AI محور تبدیل می کند.

ویژگی های کلیدی

قابلیت های پیشرفته

WAN 2.1 در تولید تصاویر با کیفیت بالا از ورودی های متن و تصویر برتری دارد. این امر می تواند حرکات پیچیده ای را انجام دهد ، کیفیت پیکسل را ارتقا بخشد و به قوانین جسمی رعایت کند ، و آن را برای ایجاد محتوای مربوط به حرکات پیچیده مانند اسکیت یا صحنه های شنا ، به ویژه مؤثر می کند.

پشتیبانی چند زبانه

WAN 2.1 اولین مدل تولید ویدیویی است که از تأثیرات متن در هر دو چینی و انگلیسی پشتیبانی می کند و به بازارهای متنوع جهانی پذیرایی می کند. این ویژگی به طور قابل توجهی ابزار خود را در صنایع و مناطق مختلف افزایش می دهد.

معیارهای عملکرد

طبق اعلام Vbench Leaderboard ، یک مجموعه معیار جامع برای مدلهای تولیدی ویدیویی ، WAN 2.1 به نمره کلی چشمگیر 84.7 ٪ رسیده است. این مدل در ابعاد مهمی مانند درجه پویا ، روابط مکانی و تعامل چند هدف ، از رقبای برتر مانند SORA OpenAi در معیارهای کلیدی استفاده می کند.

کارایی پردازش

یکی از ویژگی های برجسته WAN 2.1 سرعت پردازش آن است. این مدل می تواند فیلم ها را 2.5 برابر سریعتر از نزدیکترین رقبای خود بازسازی کند ، بهبود قابل توجهی در کارآیی که می تواند پیامدهای گسترده ای برای برنامه های مختلف داشته باشد.

معماری فنی

خودکشی های تنوع سه بعدی

WAN 2.1 معماری رمان علت VAE را ارائه می دهد ، نامیده می شود از بین بردن، به طور خاص برای تولید فیلم طراحی شده است. با ترکیب چندین استراتژی ، فشرده سازی فضایی-زمانی را بهبود می بخشد ، میزان مصرف حافظه را کاهش می دهد و علیت زمانی را تضمین می کند. از بین بردن مزایای قابل توجهی در کارآیی عملکرد در مقایسه با سایر VAE های منبع باز نشان می دهد و می تواند فیلم های 1080p با طول نامحدود را بدون از دست دادن اطلاعات زمانی تاریخی رمزگذاری و رمزگشایی کند.

انتشار ویدیو

WAN 2.1 با استفاده از چارچوب تطبیق جریان در پارادایم ترانسفورماتورهای انتشار جریان اصلی طراحی شده است. معماری این مدل از رمزگذار T5 برای رمزگذاری ورودی متن چند زبانه استفاده می کند ، با توجه متقابل در هر بلوک ترانسفورماتور که متن را در ساختار مدل تعبیه می کند. علاوه بر این ، از یک MLP با یک لایه خطی و یک لایه سیلو استفاده می کند تا زمان ورودی تعبیه شده را پردازش کند و شش پارامتر مدولاسیون را به صورت جداگانه پیش بینی کند. این MLP در تمام بلوک های ترانسفورماتور به اشتراک گذاشته می شود ، و هر بلوک مجموعه ای متمایز از تعصب را یاد می گیرد.

انواع مدل

Alibaba چهار نوع WAN 2.1 را منتشر کرده است:

  • T2V-1.3b: مناسب برای توسعه دهندگان انفرادی ، فقط به 8.19 گیگابایت حافظه ویدیویی نیاز دارد. این می تواند در حدود 4 دقیقه فیلم های 5 ثانیه ای 480p ایجاد کند.
  • T2V-14B: از ارائه سطح حرفه ای 720p پشتیبانی می کند و برای برنامه های صنعت فیلم و تلویزیون مناسب است.
  • I2V-14B-720p: از وضوح 720p برای کارهای تصویر به فیلم پشتیبانی می کند.
  • I2V-14B-480p: از وضوح 480p برای کارهای تصویر به فیلم پشتیبانی می کند.

برنامه

WAN 2.1 دارای طیف گسترده ای از برنامه ها ، از جمله:

ایجاد شخصی

  • تولید محتوای ویدیویی کوتاه
  • کمک به ایجاد هنری
  • انیمیشن تصویر

تولید حرفه ای

  • تولید جلوه های ویژه فیلم و تلویزیون
  • تبلیغات خلاقانه تبلیغات
  • تولید منابع آموزشی

کاربردهای صنعتی

  • انیمیشن تظاهرات محصول
  • تجسم معماری
  • تجسم فرآیند صنعتی

چشم اندازهای آینده

منبع باز WAN 2.1 فرصت های جدیدی را برای ایجاد ویدیوی هوش مصنوعی به ارمغان می آورد. به خصوص با توجه به نیازهای سخت افزاری کم ، توسعه دهندگان بیشتر و تیم های کوچک می توانند در شیوه های تولید ویدیویی هوش مصنوعی شرکت کنند. این نه تنها باعث گسترش فناوری می شود بلکه باعث نوآوری در کل صنعت می شود.

پایان

WAN 2.1 یک مجموعه مدل AI پیشگامانه است که مرزهای تولید فیلم و تصویر را تحت فشار قرار می دهد. قابلیت های پیشرفته آن ، پشتیبانی چند زبانه ، عملکرد برتر و پردازش کارآمد آن را به عنوان انتخاب پیشرو برای برنامه های مختلف تبدیل می کند. ماهیت منبع باز WAN 2.1 بیشتر دسترسی به فناوری های پیشرفته AI را دموکراتیک می کند و باعث نوآوری و خلاقیت در زمینه ایجاد محتوای بصری AI می شود.

برای اطلاعات بیشتر می توانید به مخزن رسمی GitHub یا پلت فرم تظاهرات آنلاین مراجعه کنید.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا