آزمایشها و الزامات تنظیم دقیق کامل Multi-GPU FLUX در RunPod و نتیجهگیری

Summarize this content to 400 words in Persian Lang من یک آزمایش گسترده چند GPU FLUX Full Fine Tuning / DreamBooth را روی RunPod با استفاده از 2x A100–80GB GPU (PCIe) انجام دادهام، زیرا معمولاً از من خواسته میشود.
تصویر 1
تصویر 1 نشان می دهد که تنها قسمت اول نصب رابط کاربری گرافیکی Kohya 30 دقیقه بر روی یک دستگاه قدرتمند روی یک Secure Cloud pod بسیار گران قیمت – 3.28 دلار در ساعت طول کشید.
قسمت 2 هم وجود داشت، پس نصب خیلی زمان برد
در محاسبه جمعی، 2 تا 3 دقیقه طول می کشد
به همین دلیل است که من به شما پیشنهاد می کنم از محاسبات جمعی بر روی ران پاد استفاده کنید، ماشین های ران پاد سرعت هارد دیسک وحشتناکی دارند و مانند قرعه کشی برای به دست آوردن موارد خوب هستند.
تصویر 2 و 3 و 4
تصویر 2 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را نشان می دهد که در زیر به اشتراک گذاشته شده است هنگام انجام آموزش 2x Multi GPU
https://www.patreon.com/posts/kohya-flux-fine-112099700
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
تصویر 3 استفاده از VRAM از این پیکربندی را هنگام انجام آموزش 2x Multi GPU نشان می دهد
تصویر 4 GPU های Pod را نشان می دهد
تصویر 5 و 6
تصویر 5 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را که در زیر به اشتراک گذاشته شده است را هنگام انجام یک آموزش GPU نشان می دهد.
https://www.patreon.com/posts/kohya-flux-fine-112099700
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
تصویر 6 این مقدار VRAM استفاده شده را تنظیم می کند
تصویر 7 و 8
تصویر 7 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را نشان میدهد که در زیر به اشتراک گذاشته شده است هنگام انجام یک آموزش GPU و Gradient Checkpointing غیرفعال است.
https://www.patreon.com/posts/kohya-flux-fine-112099700
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
تصویر 8 مقدار VRAM مورد استفاده را تنظیم کرده است
تصویر 9 و 10
تصویر 9 سرعت بهترین تنظیمات تنظیمات FLUX Fine Tuning را نشان می دهد که در زیر هنگام انجام آموزش 2 برابری چند GPU به اشتراک گذاشته شده است – این بار Fused Backward Pass غیرفعال است
https://www.patreon.com/posts/kohya-flux-fine-112099700
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
تصویر 10 مقدار VRAM استفاده شده را نشان می دهد
تصویر 11
تصویر 2 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را که در زیر به اشتراک گذاشته شده است را هنگام انجام آموزش 2x Multi GPU در یک Pod مختلف نشان می دهد.
https://www.patreon.com/posts/kohya-flux-fine-112099700
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
نتیجه گیری
برای تنظیم دقیق FLUX چند GPU، باید حداقل از 80 گیگابایت GPU استفاده کنید
هنگام انجام FLUX Fine Tuning چند GPU، Fused Backward Pass 0 پیشرفت در استفاده از VRAM به ارمغان می آورد اما آموزش را کند می کند – من این را گزارش می کنم
با پردازنده گرافیکی A100، میتوانید به 2.89 ثانیه برسیم – احتمالاً با انجام مراحل بیشتر بهتر میشود.
با پردازنده گرافیکی 2x A100، می توانید به 4.1 ثانیه / آن دست یابید — سرعت موثر 2.05 ثانیه / آن
افزایش سرعت 0.75 / 2.9 = 26٪ است – بنابراین آموزش GPU 2 برابر در حال حاضر ارزش آن را ندارد
اگر افت سرعت به دلیل سربار چند GPU ثابت بماند، 8x A100 ممکن است مفید باشد، اما باید آن را به درستی آزمایش کنید و افزایش سرعت را محاسبه کنید.
در حال حاضر تک L40S بسیار ارزانتر و سریعتر خواهد بود
هنگام انجام آموزش Multi-GPU FLUX LoRA، تقریباً سرعت خطی افزایش می یابد – من با 8x RTX A6000 آزمایش کرده ام: https://www.patreon.com/posts/110879657
همانطور که در تصویر 11 نشان داده شده است، همچنین این احتمال وجود دارد که عملکرد پاد را به مراتب بدتر کنید
با همان پردازنده گرافیکی 2x A100 و بدون تفاوت قابل مشاهده، آن غلاف تصادفی سرعت 1/4 را از همان غلاف پیکربندی مشابه انجام داد – سرعت وحشتناکی وحشتناک
من یک آزمایش گسترده چند GPU FLUX Full Fine Tuning / DreamBooth را روی RunPod با استفاده از 2x A100–80GB GPU (PCIe) انجام دادهام، زیرا معمولاً از من خواسته میشود.
تصویر 1
-
تصویر 1 نشان می دهد که تنها قسمت اول نصب رابط کاربری گرافیکی Kohya 30 دقیقه بر روی یک دستگاه قدرتمند روی یک Secure Cloud pod بسیار گران قیمت – 3.28 دلار در ساعت طول کشید.
-
قسمت 2 هم وجود داشت، پس نصب خیلی زمان برد
-
در محاسبه جمعی، 2 تا 3 دقیقه طول می کشد
-
به همین دلیل است که من به شما پیشنهاد می کنم از محاسبات جمعی بر روی ران پاد استفاده کنید، ماشین های ران پاد سرعت هارد دیسک وحشتناکی دارند و مانند قرعه کشی برای به دست آوردن موارد خوب هستند.
تصویر 2 و 3 و 4
-
تصویر 2 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را نشان می دهد که در زیر به اشتراک گذاشته شده است هنگام انجام آموزش 2x Multi GPU
-
https://www.patreon.com/posts/kohya-flux-fine-112099700
-
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
-
تصویر 3 استفاده از VRAM از این پیکربندی را هنگام انجام آموزش 2x Multi GPU نشان می دهد
-
تصویر 4 GPU های Pod را نشان می دهد
تصویر 5 و 6
-
تصویر 5 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را که در زیر به اشتراک گذاشته شده است را هنگام انجام یک آموزش GPU نشان می دهد.
-
https://www.patreon.com/posts/kohya-flux-fine-112099700
-
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
-
تصویر 6 این مقدار VRAM استفاده شده را تنظیم می کند
تصویر 7 و 8
-
تصویر 7 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را نشان میدهد که در زیر به اشتراک گذاشته شده است هنگام انجام یک آموزش GPU و Gradient Checkpointing غیرفعال است.
-
https://www.patreon.com/posts/kohya-flux-fine-112099700
-
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
-
تصویر 8 مقدار VRAM مورد استفاده را تنظیم کرده است
تصویر 9 و 10
-
تصویر 9 سرعت بهترین تنظیمات تنظیمات FLUX Fine Tuning را نشان می دهد که در زیر هنگام انجام آموزش 2 برابری چند GPU به اشتراک گذاشته شده است – این بار Fused Backward Pass غیرفعال است
-
https://www.patreon.com/posts/kohya-flux-fine-112099700
-
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
-
تصویر 10 مقدار VRAM استفاده شده را نشان می دهد
تصویر 11
-
تصویر 2 سرعت بهترین تنظیمات پیکربندی FLUX Fine Tuning را که در زیر به اشتراک گذاشته شده است را هنگام انجام آموزش 2x Multi GPU در یک Pod مختلف نشان می دهد.
-
https://www.patreon.com/posts/kohya-flux-fine-112099700
-
نام پیکربندی استفاده شده: Quality_1_27500MB_6_26_Second_IT.json
نتیجه گیری
-
برای تنظیم دقیق FLUX چند GPU، باید حداقل از 80 گیگابایت GPU استفاده کنید
-
هنگام انجام FLUX Fine Tuning چند GPU، Fused Backward Pass 0 پیشرفت در استفاده از VRAM به ارمغان می آورد اما آموزش را کند می کند – من این را گزارش می کنم
-
با پردازنده گرافیکی A100، میتوانید به 2.89 ثانیه برسیم – احتمالاً با انجام مراحل بیشتر بهتر میشود.
-
با پردازنده گرافیکی 2x A100، می توانید به 4.1 ثانیه / آن دست یابید — سرعت موثر 2.05 ثانیه / آن
-
افزایش سرعت 0.75 / 2.9 = 26٪ است – بنابراین آموزش GPU 2 برابر در حال حاضر ارزش آن را ندارد
-
اگر افت سرعت به دلیل سربار چند GPU ثابت بماند، 8x A100 ممکن است مفید باشد، اما باید آن را به درستی آزمایش کنید و افزایش سرعت را محاسبه کنید.
-
در حال حاضر تک L40S بسیار ارزانتر و سریعتر خواهد بود
-
هنگام انجام آموزش Multi-GPU FLUX LoRA، تقریباً سرعت خطی افزایش می یابد – من با 8x RTX A6000 آزمایش کرده ام: https://www.patreon.com/posts/110879657
-
همانطور که در تصویر 11 نشان داده شده است، همچنین این احتمال وجود دارد که عملکرد پاد را به مراتب بدتر کنید
-
با همان پردازنده گرافیکی 2x A100 و بدون تفاوت قابل مشاهده، آن غلاف تصادفی سرعت 1/4 را از همان غلاف پیکربندی مشابه انجام داد – سرعت وحشتناکی وحشتناک