برنامه نویسی

آزمایش‌ها و الزامات تنظیم دقیق کامل Multi-GPU FLUX در RunPod و نتیجه‌گیری

Summarize this content to 400 words in Persian Lang من یک آزمایش گسترده چند GPU FLUX Full Fine Tuning / DreamBooth را روی RunPod با استفاده از 2x A100–80GB GPU (PCIe) انجام داده‌ام، زیرا معمولاً از من خواسته می‌شود.

تصویر 1

تصویر 1 نشان می دهد که تنها قسمت اول نصب رابط کاربری گرافیکی Kohya 30 دقیقه بر روی یک دستگاه قدرتمند روی یک Secure Cloud pod بسیار گران قیمت – 3.28 دلار در ساعت طول کشید.

قسمت 2 هم وجود داشت، پس نصب خیلی زمان برد

در محاسبه جمعی، 2 تا 3 دقیقه طول می کشد

به همین دلیل است که من به شما پیشنهاد می کنم از محاسبات جمعی بر روی ران پاد استفاده کنید، ماشین های ران پاد سرعت هارد دیسک وحشتناکی دارند و مانند قرعه کشی برای به دست آوردن موارد خوب هستند.

تصویر 2 و 3 و 4

تصویر 2 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را نشان می دهد که در زیر به اشتراک گذاشته شده است هنگام انجام آموزش 2x Multi GPU

https://www.patreon.com/posts/kohya-flux-fine-112099700

نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

تصویر 3 استفاده از VRAM از این پیکربندی را هنگام انجام آموزش 2x Multi GPU نشان می دهد

تصویر 4 GPU های Pod را نشان می دهد

تصویر 5 و 6

تصویر 5 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را که در زیر به اشتراک گذاشته شده است را هنگام انجام یک آموزش GPU نشان می دهد.

https://www.patreon.com/posts/kohya-flux-fine-112099700

نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

تصویر 6 این مقدار VRAM استفاده شده را تنظیم می کند

تصویر 7 و 8

تصویر 7 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را نشان می‌دهد که در زیر به اشتراک گذاشته شده است هنگام انجام یک آموزش GPU و Gradient Checkpointing غیرفعال است.

https://www.patreon.com/posts/kohya-flux-fine-112099700

نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

تصویر 8 مقدار VRAM مورد استفاده را تنظیم کرده است

تصویر 9 و 10

تصویر 9 سرعت بهترین تنظیمات تنظیمات FLUX Fine Tuning را نشان می دهد که در زیر هنگام انجام آموزش 2 برابری چند GPU به اشتراک گذاشته شده است – این بار Fused Backward Pass غیرفعال است

https://www.patreon.com/posts/kohya-flux-fine-112099700

نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

تصویر 10 مقدار VRAM استفاده شده را نشان می دهد

تصویر 11

تصویر 2 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را که در زیر به اشتراک گذاشته شده است را هنگام انجام آموزش 2x Multi GPU در یک Pod مختلف نشان می دهد.

https://www.patreon.com/posts/kohya-flux-fine-112099700

نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

نتیجه گیری

برای تنظیم دقیق FLUX چند GPU، باید حداقل از 80 گیگابایت GPU استفاده کنید

هنگام انجام FLUX Fine Tuning چند GPU، Fused Backward Pass 0 پیشرفت در استفاده از VRAM به ارمغان می آورد اما آموزش را کند می کند – من این را گزارش می کنم

با پردازنده گرافیکی A100، می‌توانید به 2.89 ثانیه برسیم – احتمالاً با انجام مراحل بیشتر بهتر می‌شود.

با پردازنده گرافیکی 2x A100، می توانید به 4.1 ثانیه / آن دست یابید — سرعت موثر 2.05 ثانیه / آن

افزایش سرعت 0.75 / 2.9 = 26٪ است – بنابراین آموزش GPU 2 برابر در حال حاضر ارزش آن را ندارد

اگر افت سرعت به دلیل سربار چند GPU ثابت بماند، 8x A100 ممکن است مفید باشد، اما باید آن را به درستی آزمایش کنید و افزایش سرعت را محاسبه کنید.

در حال حاضر تک L40S بسیار ارزانتر و سریعتر خواهد بود

هنگام انجام آموزش Multi-GPU FLUX LoRA، تقریباً سرعت خطی افزایش می یابد – من با 8x RTX A6000 آزمایش کرده ام: https://www.patreon.com/posts/110879657

همانطور که در تصویر 11 نشان داده شده است، همچنین این احتمال وجود دارد که عملکرد پاد را به مراتب بدتر کنید

با همان پردازنده گرافیکی 2x A100 و بدون تفاوت قابل مشاهده، آن غلاف تصادفی سرعت 1/4 را از همان غلاف پیکربندی مشابه انجام داد – سرعت وحشتناکی وحشتناک

من یک آزمایش گسترده چند GPU FLUX Full Fine Tuning / DreamBooth را روی RunPod با استفاده از 2x A100–80GB GPU (PCIe) انجام داده‌ام، زیرا معمولاً از من خواسته می‌شود.

1%2ArikdCau3gNF GV Tvv6gQ

تصویر 1

  • تصویر 1 نشان می دهد که تنها قسمت اول نصب رابط کاربری گرافیکی Kohya 30 دقیقه بر روی یک دستگاه قدرتمند روی یک Secure Cloud pod بسیار گران قیمت – 3.28 دلار در ساعت طول کشید.

  • قسمت 2 هم وجود داشت، پس نصب خیلی زمان برد

  • در محاسبه جمعی، 2 تا 3 دقیقه طول می کشد

  • به همین دلیل است که من به شما پیشنهاد می کنم از محاسبات جمعی بر روی ران پاد استفاده کنید، ماشین های ران پاد سرعت هارد دیسک وحشتناکی دارند و مانند قرعه کشی برای به دست آوردن موارد خوب هستند.

1%2ARfYz20a56YdnhoEIKkj9Ag

1%2ANt6X0 MQs2Mq or s8RUPw

1%2A8T sDfJZr6uBKXeMRd8V3w

تصویر 2 و 3 و 4

  • تصویر 2 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را نشان می دهد که در زیر به اشتراک گذاشته شده است هنگام انجام آموزش 2x Multi GPU

  • https://www.patreon.com/posts/kohya-flux-fine-112099700

  • نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

  • تصویر 3 استفاده از VRAM از این پیکربندی را هنگام انجام آموزش 2x Multi GPU نشان می دهد

  • تصویر 4 GPU های Pod را نشان می دهد

1%2ASAocUEKftkeiAZPSMY2njA

1%2AydmiEeCStQPlIqLdjUrBmg

تصویر 5 و 6

  • تصویر 5 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را که در زیر به اشتراک گذاشته شده است را هنگام انجام یک آموزش GPU نشان می دهد.

  • https://www.patreon.com/posts/kohya-flux-fine-112099700

  • نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

  • تصویر 6 این مقدار VRAM استفاده شده را تنظیم می کند

1%2ABm5iQIADYWyesCVUaDpKow

1%2A9yiik9HK3LpWUQ7 gB EMw

تصویر 7 و 8

  • تصویر 7 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را نشان می‌دهد که در زیر به اشتراک گذاشته شده است هنگام انجام یک آموزش GPU و Gradient Checkpointing غیرفعال است.

  • https://www.patreon.com/posts/kohya-flux-fine-112099700

  • نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

  • تصویر 8 مقدار VRAM مورد استفاده را تنظیم کرده است

1%2AkY8dNl SUscheqEB12bvTw

1%2AOj jT R2u7OFPTAucIOJAw

تصویر 9 و 10

  • تصویر 9 سرعت بهترین تنظیمات تنظیمات FLUX Fine Tuning را نشان می دهد که در زیر هنگام انجام آموزش 2 برابری چند GPU به اشتراک گذاشته شده است – این بار Fused Backward Pass غیرفعال است

  • https://www.patreon.com/posts/kohya-flux-fine-112099700

  • نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

  • تصویر 10 مقدار VRAM استفاده شده را نشان می دهد

1%2AdiADRIILK5b9Bv4ji2bnug

تصویر 11

  • تصویر 2 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را که در زیر به اشتراک گذاشته شده است را هنگام انجام آموزش 2x Multi GPU در یک Pod مختلف نشان می دهد.

  • https://www.patreon.com/posts/kohya-flux-fine-112099700

  • نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json

نتیجه گیری

  • برای تنظیم دقیق FLUX چند GPU، باید حداقل از 80 گیگابایت GPU استفاده کنید

  • هنگام انجام FLUX Fine Tuning چند GPU، Fused Backward Pass 0 پیشرفت در استفاده از VRAM به ارمغان می آورد اما آموزش را کند می کند – من این را گزارش می کنم

  • با پردازنده گرافیکی A100، می‌توانید به 2.89 ثانیه برسیم – احتمالاً با انجام مراحل بیشتر بهتر می‌شود.

  • با پردازنده گرافیکی 2x A100، می توانید به 4.1 ثانیه / آن دست یابید — سرعت موثر 2.05 ثانیه / آن

  • افزایش سرعت 0.75 / 2.9 = 26٪ است – بنابراین آموزش GPU 2 برابر در حال حاضر ارزش آن را ندارد

  • اگر افت سرعت به دلیل سربار چند GPU ثابت بماند، 8x A100 ممکن است مفید باشد، اما باید آن را به درستی آزمایش کنید و افزایش سرعت را محاسبه کنید.

  • در حال حاضر تک L40S بسیار ارزانتر و سریعتر خواهد بود

  • هنگام انجام آموزش Multi-GPU FLUX LoRA، تقریباً سرعت خطی افزایش می یابد – من با 8x RTX A6000 آزمایش کرده ام: https://www.patreon.com/posts/110879657

  • همانطور که در تصویر 11 نشان داده شده است، همچنین این احتمال وجود دارد که عملکرد پاد را به مراتب بدتر کنید

  • با همان پردازنده گرافیکی 2x A100 و بدون تفاوت قابل مشاهده، آن غلاف تصادفی سرعت 1/4 را از همان غلاف پیکربندی مشابه انجام داد – سرعت وحشتناکی وحشتناک

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا