متا هوش مصنوعی MusicLM گوگل را با MusicGen میپذیرد، در اینجا نحوه عملکرد آن آمده است


این صنایع صوتی تیم تحقیقاتی در متا اخیرا راه اندازی شده است MusicGen، یک مدل زبان یادگیری عمیق منبع باز.
MusicGen میتواند موسیقی جدید را بر اساس پیامهای متنی تولید کند و حتی میتواند با یک آهنگ موجود تراز شود. مدل مشابه است گوگل‘s MusicLM، آموزش 20000 ساعت موسیقی مجاز. همچنین می تواند ملودی را به عنوان ورودی دریافت کند و با خلاقیت موسیقایی خود آن را تکمیل کند.
در سایت Hugging Face AI فیس بوک، یک نسخه نمایشی وجود دارد که به شما امکان می دهد موسیقی مورد نظر خود را توصیف کنید. میتوانید از چند مثال مانند «آهنگ پاپ رانندگی دهه 80 با طبلهای سنگین و پدهای مصنوعی در پسزمینه» انتخاب کنید. پس از آن، می توانید انتخاب خود را با یک آهنگ تا 30 ثانیه “شرط” کنید. شما این امکان را دارید که بخش خاصی از آهنگ را انتخاب کنید. پس از زدن Generation، نسخه ی نمایشی یک نمونه با کیفیت بالا تا 12 ثانیه ایجاد می کند.
به عبارت سادهتر، میتوانید نوع موسیقی مورد نظر خود را توصیف کنید، سپس یک آهنگ از قبل موجود را اضافه کنید، اگر بخواهید و سپس روی «Generate» کلیک کنید. حدود 160 ثانیه طول می کشد، یعنی 2 دقیقه و 40 ثانیه، سپس یک قطعه موسیقی منحصر به فرد تولید می کند که پیام های متنی و ملودی شما را در بر می گیرد.
MusicGen بر روی 20000 ساعت موسیقی مجاز برای آموزش آموزش دیده است که شامل 10000 آهنگ موسیقی با کیفیت بالا از مجموعه داده خود و همچنین آهنگ هایی از شاتر استاک و Pond5. این تیم از توکنایزر صوتی 32 کیلوهرتزی EnCodec متا برای تولید تکه های موسیقی کوچکتر که می توانند به طور همزمان پردازش شوند، استفاده کردند، بنابراین روند را سرعت می بخشند.
مهندس Ahsen Khaliq، مهندس Hugging Face ML در توییتی اعلام کرد که برخلاف MusicLM، MusicGen نیازی به نمایش معنایی خود نظارتی ندارد و تنها 50 گام با رگرسیون خودکار در هر ثانیه صدا دارد.
MusicGen در چهار اندازه مدل مختلف موجود است که بزرگترین آنها پتانسیل تولید پیچیده ترین موسیقی را دارد. برای اجرای مدل به صورت محلی، توصیه می شود حداقل a پردازنده گرافیکی با 16 گیگابایت رم.
فیس بوکتوییترلینکدین
پایان مقاله