پشت پرده: چگونه AI متن به گفتار چگونه کار می کند

من می خواهم عذرخواهی کنم که برای دو هفته گذشته کمی از همه در Dev.to جدا شده ام. اخیراً با شروع نقش جدیدی به عنوان CTO از BCA Research ، من در مورد همه پروژه های واقعاً جالب که ما در اینجا می گذرد ، دست به دست هم داده ام. من به تازگی در حال بررسی برخی از خدمات متن به گفتار مانند 11 آزمایشگاه (https://elevenlabs.io/) و Seappify (https://speechify.com/) بوده ام تا ببینم چگونه می توانم این را در وبلاگ نویسی خود بگنجانیم. من واقعاً کنجکاو بودم که ببینم این مدل ها چگونه در زیر کاپوت کار می کنند و فکر می کردم برای به اشتراک گذاشتن برخی از یافته های من مفید خواهد بود.
معماری دو مرحله ای
در نگاه اول ، تبدیل متن به گفتار ممکن است ساده به نظر برسد ، اما این روند شامل سیستم های پیشرفته AI است که از مکانیسم های پیچیده تولید گفتار انسان تقلید می کند. با نگاهی به نمودار زیر ، می توانید خط لوله پیچیده ای را مشاهده کنید که ورودی متن ساده را به صدای طبیعی صدا تبدیل می کند.
سیستم های TTS مدرن به طور معمول در دو مرحله مشخص کار می کنند:
- متن به جلوه: تبدیل متن به نمایش های صوتی (طیف سنجی)
- دارای شکل به موج: تبدیل این بازنمایی ها به امواج صوتی واقعی
این جدایی به هر مؤلفه اجازه می دهد تا در حل جنبه های مختلف مشکل تولید گفتار تخصص داشته باشد. قسمت اول درک و برنامه ریزی گفتار زبانی را کنترل می کند ، در حالی که بخش دوم بر خصوصیات آکوستیک که گفتار طبیعی را طبیعی می کند ، تمرکز دارد. مؤلفه های نشان داده شده در نمودار با هم یکپارچه کار می کنند تا نتایج فزاینده ای مانند انسان تولید کنند که فقط چند سال پیش غیرممکن بودند.
مرحله 1: از متن تا ویژگی های صوتی
قبل از ایجاد هرگونه صدا ، متن تحت پردازش قرار می گیرد. این شامل عادی سازی اعداد و اختصارات (تغییر “123” به “صد بیست و سه”) و تبدیل گرافم (حروف نوشتاری) به واج ها (صداهای گفتار) است.
هسته اصلی مرحله اول است مدل صوتیبشر همانطور که در نمودار نشان داده شده است ، این فرآیند با تبدیل متن ورودی به تعبیه های شخصیت شروع می شود – بازنمایی های عددی که معنی و متن هر شخصیت را ضبط می کند. این تعبیه ها از طریق لایه های حلقوی و یک شبکه LSTM دو طرفه ، که دنباله متن را پردازش می کند و روابط متنی را ضبط می کند ، جریان می یابد.
یک مؤلفه مهم است مکانیزم توجه (به عنوان “توجه حساس به مکان” در نمودار نشان داده شده است) ، که به مدل کمک می کند تا بر روی قسمت های مربوطه متن ورودی تمرکز کند زیرا هر قسمت از گفتار را تولید می کند. این مکانیسم به ویژه برای تلفظ ، تأکید و زمان بندی مناسب از اهمیت ویژه ای برخوردار است.
پس از پردازش از طریق شبکه عصبی مجهز به توجه ، خروجی پیش بینی می شود طیف سنج – بازنمایی بصری از فرکانس های صدا به مرور زمان که ویژگی های اساسی گفتار را ضبط می کند. این طیف سنجی به عنوان یک طرح آکوستیک برای صوتی نهایی عمل می کند.
مرحله 2: از ویژگی ها تا شکل موج
مرحله دوم از a استفاده می کند صدا مانند Wavenet یا Waveglow برای تبدیل طیف سنج MEL به شکل موج صوتی واقعی. در نمودار ما ، این توسط مؤلفه “موله موج” نشان داده شده است.
رویکردهای سنتی از الگوریتم های ساده استفاده می کردند که اغلب گفتار با صدای مکانیکی را تولید می کردند. با این حال ، آوازهای عصبی مدرن می توانند صداهای قابل توجهی طبیعی ایجاد کنند که ظرافت های گفتار انسان را به خود اختصاص می دهد ، از جمله الگوهای تنفس مناسب و خصوصیات صوتی ظریف.
نوآوری کلیدی در واژگان جدیدتر مانند Waveglow توانایی آنها در تولید صدا به صورت موازی و نه پی در پی است. این موازی سازی به طور چشمگیری سرعت تولید را بهبود می بخشد – از نرخ کیلو هرتز تا نرخ مگاهرتز – باعث می شود سنتز گفتار در زمان واقعی حتی در سخت افزار مصرف کننده امکان پذیر شود.
نوآوری های اخیر
آنچه به خصوص من را در مورد سیستم عامل هایی مانند 11 آزمایشگاه مجذوب خود می کند ، دستیابی به موفقیت آنها در فناوری کلونینگ صوتی است. این سیستم ها با تنها چند دقیقه از صدای نمونه ، می توانند نسخه دیجیتالی از هر صدا را ایجاد کنند. از آنجا که من اجرای این قابلیت ها را به عنوان بخشی از وبلاگ نویسی خود کشف می کنم ، دست اول می بینم که چگونه این می تواند مصرف محتوا را برای خوانندگان شلوغ تغییر دهد. این فناوری به طرز چشمگیری فراتر از صداهای رباتیک پیشرفت کرده است که بسیاری از ما فقط از چند سال پیش به یاد می آوریم. گفتار ناشی از AI امروز به طور فزاینده ای از صدای انسانی قابل تشخیص نیست ، و امکانات جدیدی را برای ایجاد محتوا ، دسترسی و تجربه کاربر باز می کند.
من به آزمایش این فناوری ها ادامه خواهم داد و دوست دارم بشنوم که آیا هر یک از شما سنتز گفتار یکپارچه در پروژه های خود داشته باشید. خط بین گفتار مصنوعی و انسانی همچنان به تاری است و من از اینکه بخشی از سفر در استفاده از این نوآوری ها برای ایجاد محتوای جذاب و در دسترس تر هستم ، هیجان زده ام.