برنامه نویسی

رکورد مشکلات GRPO – جامعه Dev

فهمیدم که بغل کردن چهره GRPO اصلی فناوری Deepseek-R1 را تطبیق داده است ، بنابراین تصمیم گرفتم آن را امتحان کنم. من وظیفه ERC (تشخیص احساسات را در مکالمات) انتخاب کردم تا ببینم آیا یک مدل کوچکتر می تواند با استفاده از یادگیری تقویت کننده ، شروع به کار کند و در یک کار واحد آموزش دیده و عملکرد وظیفه را بهبود بخشد.

اول ، این فناوری بسیار حافظه است. من در ابتدا سعی کردم آموزش ببینم gemma-2–2b وت qwen-2.5–3b-instruct با استفاده از A100-80G ، اما حافظه کافی نبود.

بعد از تغییر به qwen-2.5–0.5b-instruct، مسئله حافظه حل شد. ثانیاً ، سرعت استنتاج به ویژه کند است زیرا در همان تمرین باید به طور مکرر نمونه برداری شود.

خوشبختانه ، بغل کردن صورت به سرعت VLLM را اقتباس کرده و باعث افزایش کارآیی می شود. با این حال ، این موضوعات جدید را به همراه داشت:

  1. استفاده از VLLM برای کمک به آموزش GRPO حداقل به دو GPU نیاز دارد ، که در واقع تقاضای منابع را افزایش می دهد ، صرفاً بار استنباط را به کارت اختصاصی منتقل می کند.
  2. یک خطای عجیب و غریب مداوم وجود داشت _assert_memory_footprint_increased_during_profilingبشر پس از بررسی مشکلات در TRL ، به نظر می رسد که ارتقاء VLLM به نسخه 0.7 برای حل آن ضروری است.
datasets==3.0.1
trl==0.14.0
transformers==4.48.2
peft==0.14.0
accelerate==1.3.0
deepspeed==0.15.3
torch==2.5.1
vllm==0.7.1
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

گیره

نقل قول GPU

مشخص شد که بغل کردن چهره GRPO اصلی فناوری Deepseek-R1 را تطبیق داده است و من تصمیم گرفتم آن را امتحان کنم. من کار ERC را انتخاب کردم (شناسه عاطفی گفتگو) می خواهم ببینم که آیا یک مدل کوچکتر می تواند با تقویت یادگیری و بهبود عملکرد کار ، آموزش را در مورد یک کار واحد شروع کند.
اول از همه ، این فناوری بسیار گران است. من برای اولین بار سعی کردم از A100-80G برای آموزش GEMMA-2-2B و QWEN-2.5-3B-3B استفاده کنم ، اما حافظه کافی نبود. پس از تنظیم تنظیم به QWEN-2.5 .0.5b-b-intruct ، حافظه ویدیویی دیگر پشت سر هم نیست. ثانیاً ، سرعت استدلال به ویژه کند است ، زیرا در طی فرایند آموزش ، همان فرکانس ها باید به طور مکرر نمونه برداری شوند. خوشبختانه ، بغل کردن صورت به سرعت با VLLM سازگار شد و کارآیی را بهبود بخشید. اما این مشکلات جدیدی را به همراه می آورد:

  1. استفاده از VLLM برای کمک به آموزش GRPO حداقل به دو کارت گرافیک نیاز دارد.
  2. اشتباهات عجیب_assert_memory_footprint_increased_during_profilingپس از بررسی مسئله TRL ، به نظر می رسد که VLLM برای حل آن باید به نسخه 0.7 افزایش یابد.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا