برنامه نویسی

یک راهنمای گام به گام برای نصب Kokoro-82m به صورت محلی برای TTS سریع و با کیفیت بالا

Kokoro-82M یک مدل پیشرفته از متن به گفتار (TTS) است که از معماری سبک و در عین حال قدرتمند آن متمایز است. با 82 میلیون پارامتر ، خروجی صوتی با کیفیت بالا قابل مقایسه با مدل های بزرگتر ، همه در حالی که سریعتر و مقرون به صرفه تر است. آنچه Kokoro را حتی جذاب تر می کند ، معماری با وزن آزاد آن است که به توسعه دهندگان این امکان را می دهد تا آن را در محیط های مختلف مستقر کنند-از سیستم های تولید تا پروژه های شخصی آزمایش. این انعطاف پذیری آن را به ابزاری ارزشمند برای هر کسی که به دنبال پیاده سازی راه حل های کارآمد و مقیاس پذیر TTS است ، تبدیل می کند.

در این راهنما ، ما شما را از طریق مرحله به مرحله اجرای بسته Kokoro-Fastapi به صورت محلی طی می کنیم. این بسته یک بسته بندی dockerized از Kokoro-82m است و به شما امکان می دهد تا از طریق یک رابط بصری ، از قابلیت های آن برای پروژه های خود یکپارچه استفاده کنید.

پیش نیازهای

توجه: پیش نیازهای این امر در موارد استفاده بسیار متغیر است. از پیکربندی سطح بالا می توان برای استقرار در مقیاس بزرگ استفاده کرد.

فرآیند گام به گام برای نصب و اجرای Kokoro-82m به صورت محلی

برای این آموزش ، ما از یک ماشین مجازی با CPU توسط Nodeshift استفاده خواهیم کرد ، که ماشین های مجازی با ترکیب بالا را با هزینه بسیار مقرون به صرفه در مقیاس ارائه می دهد که مطابق با الزامات GDPR ، SOC2 و ISO27001 است. همچنین یک رابط بصری و کاربر پسند ارائه می دهد ، و شروع کار را برای مبتدیان با استقرار ابر آسانتر می کند. با این حال ، احساس راحتی کنید که از هر ارائه دهنده ابری که انتخاب می کنید استفاده کنید و همان مراحل را برای بقیه آموزش دنبال کنید.

مرحله 1: تنظیم یک حساب Nodeshift

به App.Nodeshift.com مراجعه کرده و با پر کردن جزئیات اصلی ، یا یک حساب کاربری ایجاد کنید ، یا به ثبت نام در حساب Google/GitHub خود ادامه دهید.

اگر قبلاً یک حساب کاربری دارید ، مستقیماً به داشبورد خود وارد شوید.

تصویر-مرحله 1-1

مرحله 2: ایجاد یک گره محاسباتی (دستگاه مجازی CPU)

پس از دسترسی به حساب خود ، باید داشبورد را ببینید (به تصویر مراجعه کنید) ، اکنون:

1) به منوی سمت چپ بروید.

2) روی روی کلیک کنید گره های محاسبه گزینه

تصویر-مرحله 2-1

3) روی کلیک کنید شروع برای شروع اولین گره محاسباتی خود.

تصویر-مرحله 2-2

این گره های محاسباتی دستگاه های مجازی با CPU توسط Nodeshift هستند. این گره ها بسیار قابل تنظیم هستند و به شما امکان می دهند تنظیمات مختلف محیطی مانند VCPU ، RAM و ذخیره را با توجه به نیازهای خود کنترل کنید.

مرحله 3: پیکربندی VM را انتخاب کنید

1) اولین گزینه ای که می بینید این است قابلیت اطمینان کشویی این گزینه به شما امکان می دهد سطح ضمانت Uptime را که به دنبال VM خود هستید (به عنوان مثال ، 99.9 ٪) انتخاب کنید.

تصویر-مرحله 3-1

2) بعد ، یک منطقه جغرافیایی را از منطقه کشویی که می خواهید VM خود را راه اندازی کنید (به عنوان مثال ، ایالات متحده).

تصویر-مرحله 3-2

3) مهمتر از همه ، با کشویی میله ها برای هر گزینه ، مشخصات صحیح VM خود را انتخاب کنید.

تصویر-مرحله 3-3

مرحله 4: پیکربندی و تصویر VM را انتخاب کنید

1) پس از انتخاب گزینه های پیکربندی مورد نیاز خود ، VM های موجود را در منطقه خود و مطابق پیکربندی خود (یا بسیار نزدیک) مشاهده خواهید کرد. در مورد ما ، یک گره محاسبات “4VCPUS/8GB/160GB SSD” را انتخاب خواهیم کرد.

2) در مرحله بعد ، باید یک تصویر برای دستگاه مجازی خود انتخاب کنید. برای دامنه این آموزش ، اوبونتو را انتخاب خواهیم کرد.

تصویر-مرحله 4-1

مرحله 5: چرخه صورتحساب و روش احراز هویت را انتخاب کنید

1) دو گزینه چرخه صورتحساب در دسترس است: هر ساعت، ایده آل برای استفاده کوتاه مدت ، ارائه انعطاف پذیری Pay-As-You-Go ، و ماهانه برای پروژه های بلند مدت با نرخ استفاده مداوم و هزینه بالقوه پایین تر.

تصویر-مرحله 1-1

2) در مرحله بعد ، شما باید یک روش تأیید اعتبار را انتخاب کنید. دو روش در دسترس است: رمز عبور و کلید SSH. توصیه می کنیم از کلیدهای SSH استفاده کنید ، زیرا آنها گزینه ای امن تر هستند. برای ایجاد یکی ، به مستندات رسمی ما بروید.

مرحله ششم: جزئیات را نهایی کنید و استقرار ایجاد کنید

سرانجام ، شما همچنین می توانید یک VPC (ابر خصوصی مجازی) اضافه کنید ، که یک بخش جدا شده را برای راه اندازی منابع ابری (ماشین مجازی ، ذخیره سازی و غیره) در یک محیط امن و خصوصی فراهم می کند. ما در حال حاضر این گزینه را به عنوان پیش فرض نگه می داریم ، اما با توجه به نیازهای خود ، یک VPC ایجاد کنید.

همچنین ، می توانید چندین گره را به طور همزمان با استفاده از آن مستقر کنید مقدار گزینه

تصویر-مرحله 6-1

همین است! شما اکنون آماده استقرار گره هستید. خلاصه پیکربندی را نهایی کنید. اگر خوب به نظر می رسد ، پیش بروید و کلیک کنید ایجاد کردن برای استقرار گره.

تصویر مرحله 6-2

مرحله 7: با استفاده از SSH به گره محاسبات فعال وصل شوید

به محض ایجاد گره ، در چند ثانیه یا یک دقیقه مستقر می شود. پس از استقرار ، وضعیتی را مشاهده خواهید کرد دویدن به رنگ سبز ، به این معنی که گره محاسباتی ما آماده استفاده است!

تصویر-مرحله 7-1

هنگامی که گره خود این وضعیت را نشان می دهد ، مراحل زیر را برای اتصال به VM در حال اجرا از طریق SSH دنبال کنید:

1) ترمینال خود را باز کنید و دستور SSH زیر را اجرا کنید:

(جایگزین کنید root با نام کاربری خود و IP VM خود را در جای خود جایگذاری کنید ip پس از کپی کردن آن از داشبورد)

ssh root@ip
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

2) در بعضی موارد ، ترمینال شما ممکن است قبل از اتصال رضایت شما را بگیرد. “بله” را وارد کنید.

3) سریع درخواست رمز عبور می کند. رمز عبور SSH را تایپ کنید ، و باید به هم وصل شوید.

خروجی:

تصویر-مرحله 7-1

مرحله 8: بسته kokoro-82m fastapi را با docker اجرا کنید

قبل از اجرای مدل ، اطمینان حاصل کنید که Docker در سیستم نصب شده است.

1) بسته بندی Fastapi Kokoro را با Docker Run شروع کنید.

اگر از گره GPU استفاده می کنید دستور زیر را اجرا کنید:

docker run --gpus all -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-gpu:v0.2.0post4
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

اگر از گره CPU استفاده می کنید دستور زیر را اجرا کنید:

docker run -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-cpu:v0.2.0post4
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

خروجی:

تصویر مرحله 8-1

مرحله 9: به رابط وب دسترسی پیدا کنید

1) پس از شروع کانتینر ، می توانید در URL زیر به رابط Kokoro دسترسی پیدا کنید:

(جایگزین کنید اگر در دستگاه محلی خود هستید با آدرس IP سرور از راه دور یا localhost خود)

http://:8888/web
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

این همان چیزی است که رابط به نظر می رسد:

تصویر-مرحله 9-1

2) برای تبدیل به صدا ، یک قطعه متن را در کادر ورودی بنویسید.

3) پس از آن ، صدای بلندگو را انتخاب کنید ، به عنوان مثال “bf_isabella“این به معنای صدای زن انگلیسی به نام ایزابلا است.

تصویر-مرحله 9-2

4) روی کلیک کنید ایجاد گفتار برای به دست آوردن یک خروجی صوتی در سمت راست.

تصویر-مرحله 9-3

شما می توانید صدا را پخش و مکث کنید ، ساعت ها از گفتار عاری از هزینه ایجاد کنید و در صورت دسترسی به برنامه از طریق رابط کاربری متفاوت مانند Gradio ، آنها را بارگیری کنید.

پایان

با دنبال کردن این راهنما ، شما یاد گرفته اید که چگونه بسته Kokoro-Fastapi را به صورت محلی اجرا کنید. این یک رابط یکپارچه برای مهار قدرت مدل TTS Kokoro-82M فراهم می کند. معماری سبک و در عین حال قوی آن ، ضمن حفظ کارایی ، خروجی های صوتی با کیفیت بالا را تضمین می کند. زیرساخت های ابری Nodeshift با ارائه یک محیط قابل اعتماد و مقیاس پذیر ، این تجربه را بیشتر می کند و باعث می شود توسعه دهندگان بتوانند برنامه های کاربردی AI را بدون زحمت مستقر و مدیریت کنند.

برای اطلاعات بیشتر در مورد Nodeshift:

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا