همراه پادکست با رونویسی بلادرنگ با استفاده از AssemblyAI

Summarize this content to 400 words in Persian Lang
این یک ارسال برای چالش AssemblyAI: گفتار به متن پیچیده است.
چیزی که من ساختم
من یک برنامه پخش پادکست مبتنی بر جاوا ساختم که نه تنها به کاربران امکان پخش پادکست را می دهد، بلکه رونویسی صدا را با استفاده از مدل گفتار به متن AssemblyAI ارائه می دهد. این برنامه با نمایش رونویسی در کنار پادکست، تجربه شنیداری را افزایش می دهد و آن را در دسترس و کاربر پسند می کند.
StarTalk یک پادکست در زمینه علم، کمدی و فرهنگ عامه است که توسط اخترفیزیکدان نیل دگراس تایسون و کمدین چاک نیس، همراه با مجریان مختلف طنز و افراد مشهور و مهمانان مکرر از دنیای علم و سرگرمی میزبانی می شود.
نسخه ی نمایشی
این برنامه در این Github Repo در دسترس است.
می توانید ویدیوی دمو را در یوتیوب ببینید
سفر
گنجاندن مدل گفتار به متن AssemblyAI، Universal-2، در برنامه من یک تجربه روشنگر بود. این برنامه پادکست ها را از یک فید RSS واکشی می کند، صدا را با استفاده از کتابخانه JLayer پخش می کند و URL صوتی را برای رونویسی به AssemblyAI ارسال می کند. سپس رونویسی در برنامه نمایش داده می شود.
معماری برنامه این مراحل را دنبال می کند:
واکشی پادکست ها: فراداده پادکست را از فید RSS بازیابی کنید.
پخش صدا: از JLayer برای پخش و پخش صدا به طور مستقیم در برنامه استفاده کنید.
درخواست رونویسی: URL صوتی را برای رونویسی به API's AssemblyAI ارسال کنید.
نمایش رونویسی: به طور دوره ای API's AssemblyAI را نظرسنجی کنید تا وضعیت رونویسی را دریافت کنید و نتیجه را در JTextArea در برنامه نمایش دهید.
ویژگی های کلیدی:
یک پادکست در هر صفحه: رابط کاربری برای نمایش یک پادکست در هر صفحه با دکمه های پیمایش برای مرور آسان طراحی شده است.
کنترل های پخش: شامل دکمههای پخش، توقف، و نوار جستجو میشود.
رونویسی: رونویسی واکشی شده و در کنار پادکست نمایش داده میشود تا تجربهای یکپارچه داشته باشید.
بهبودهای آینده:
قابلیت جستجوی پیشرفته: اجرای عملکرد جستجوی دقیق برای کنترل بهتر کاربر بر پخش.
رسیدگی به خطا: بهبود مدیریت خطا برای درخواست های شبکه و نظرسنجی رونویسی.
این یک ارسال برای چالش AssemblyAI: گفتار به متن پیچیده است.
چیزی که من ساختم
من یک برنامه پخش پادکست مبتنی بر جاوا ساختم که نه تنها به کاربران امکان پخش پادکست را می دهد، بلکه رونویسی صدا را با استفاده از مدل گفتار به متن AssemblyAI ارائه می دهد. این برنامه با نمایش رونویسی در کنار پادکست، تجربه شنیداری را افزایش می دهد و آن را در دسترس و کاربر پسند می کند.
StarTalk یک پادکست در زمینه علم، کمدی و فرهنگ عامه است که توسط اخترفیزیکدان نیل دگراس تایسون و کمدین چاک نیس، همراه با مجریان مختلف طنز و افراد مشهور و مهمانان مکرر از دنیای علم و سرگرمی میزبانی می شود.
نسخه ی نمایشی
این برنامه در این Github Repo در دسترس است.
می توانید ویدیوی دمو را در یوتیوب ببینید
سفر
گنجاندن مدل گفتار به متن AssemblyAI، Universal-2، در برنامه من یک تجربه روشنگر بود. این برنامه پادکست ها را از یک فید RSS واکشی می کند، صدا را با استفاده از کتابخانه JLayer پخش می کند و URL صوتی را برای رونویسی به AssemblyAI ارسال می کند. سپس رونویسی در برنامه نمایش داده می شود.
معماری برنامه این مراحل را دنبال می کند:
- واکشی پادکست ها: فراداده پادکست را از فید RSS بازیابی کنید.
- پخش صدا: از JLayer برای پخش و پخش صدا به طور مستقیم در برنامه استفاده کنید.
- درخواست رونویسی: URL صوتی را برای رونویسی به API's AssemblyAI ارسال کنید.
- نمایش رونویسی: به طور دوره ای API's AssemblyAI را نظرسنجی کنید تا وضعیت رونویسی را دریافت کنید و نتیجه را در JTextArea در برنامه نمایش دهید.
ویژگی های کلیدی:
- یک پادکست در هر صفحه: رابط کاربری برای نمایش یک پادکست در هر صفحه با دکمه های پیمایش برای مرور آسان طراحی شده است.
- کنترل های پخش: شامل دکمههای پخش، توقف، و نوار جستجو میشود.
- رونویسی: رونویسی واکشی شده و در کنار پادکست نمایش داده میشود تا تجربهای یکپارچه داشته باشید.
بهبودهای آینده:
- قابلیت جستجوی پیشرفته: اجرای عملکرد جستجوی دقیق برای کنترل بهتر کاربر بر پخش.
- رسیدگی به خطا: بهبود مدیریت خطا برای درخواست های شبکه و نظرسنجی رونویسی.