GRPO: تکنیک یادگیری تقویت کننده که Deepseek را بسیار قدرتمند می کند.

در اوایل سال 2025 نوآوری هوش مصنوعی (AI) در حال رشد است ، در اعماق مدل هوش مصنوعی منبع باز Origin چین به عنوان رقیب مدل های AI موجود است منبع نزدیک مانند Openaiبشر در اعماق قادر به توسعه مدل های هوش مصنوعی که با هزینه های محاسباتی ارزان تر بسیار هوشمند هستند. در پشت موفقیت های آنها ، تکنیک های پیشرفته مختلفی وجود دارد و مهمترین آنهاست بهینه سازی سیاست نسبی گروه (GRPO)بشر در این مقاله به بحث در مورد GRPO ، توضیح می دهد که چگونه تکنیک ها یادگیری تقویت (RL) این امر نقش مهمی در توانایی های خارق العاده مدل ها دارد در اعماقبشر
grpo چیست ؟؟
بهینه سازی سیاست نسبی گروه (GRPO) یک نوع هوشمند از بهینه سازی سیاست پروگزیمال (PPO)، یک الگوریتم یادگیری تقویت کننده محبوب (RL). با این حال ، GRPO فقط استاندارد PPO را کپی نمی کند. وی تغییرات مهمی را معرفی کرد که وی را بسیار مؤثر کرد ، به خصوص در زمینه آموزش مدل پیچیده.
اصول اصلی GRPO:
- گروه های خروجی: برای هر ورودی (به عنوان مثال ، سؤالات یا حالات موجود در شبیه سازی) ، GRPO گروهی از خروجی های مختلف را تولید می کند. این گروه نشان دهنده اقدامات مختلف ممکن است که می تواند توسط مدل انجام شود. تنوع در این گروه خروجی برای فرایند یادگیری بسیار مهم است.
- ارزیابی نسبی: به جای قضاوت هر خروجی به طور جداگانه بر اساس پاداش مطلق (به عنوان مثال ، آیا جواب درست است یا غلط) ، GRPO آنها را در گروه با یکدیگر مقایسه می کند. به عبارت دیگر ، GRPO بر پیشرفت های نسبی تمرکز دارد. این یک گام مهم برای بهبود کارایی و ثبات است.
- برآورد پایه کارآمد: GRPO از پایه برای عادی سازی پاداش ها و کاهش تغییرات در فرایند آموزش استفاده می کند. با این حال ، بر خلاف PPO های استاندارد که به مدل های منتقد جداگانه بستگی دارد ، GRPO این پایه را به طور مؤثر از آمار گروه تخمین می زند.
- بهینه سازی سیاست: پس از محاسبه پاداش نسبی ، GRPO خط مشی مدل را به روز می کند. این فرایند با دقت انجام می شود و اطمینان حاصل می شود که تغییرات خیلی بزرگ نیستند و می توانند باعث واگرایی (بی ثباتی) در آموزش شوند.
فرمول GRPO:
بیایید اجزای مهم را شرح دهیم:
-
IGRPO (θ): هدف برای به حداکثر رساندن در طول آموزش. این نشان دهنده عملکرد مورد انتظار خط مشی با پارامترهای θ است.
-
اشمیه[s ~ P(S), {ai}G i=1 ~ πθold (A|s)]: مقدار مورد انتظار (میانگین) کلیه حالت های ممکن (از توزیع P (ها)) و کل گروه اقدام AI ، با گروه از سیاست قبلی خارج شده است.
-
ph (ai | s): احتمال انجام اقدامات AI در ایالت S با سیاست های فعلی.
-
ptold (ai | s): همان احتمال ، اما از سیاست های قبلی استفاده می کند.
-
AIT: مزیت اقدام AI در ایالت S ، که خطوط عملکرد گروهی را در نظر می گیرد. توجه داشته باشید ، این مزیت نسبتاً در گروه ها محاسبه می شود.
-
کلیپ (نسبت ، 1-E ، 1+E): این یک عملکرد قطع است که نسبت احتمال بین سیاست های جدید و قدیمی را محدود می کند. پارامتر ε حداکثر تغییر مجاز در یک مرحله آموزشی را تعیین می کند. این برای ثبات بسیار مهم است.
-
ب: ضریب کنترل اهمیت تنظیم توسط Kullback-Leable (DKL) را کنترل می کند.
-
DKL[πθ||πref]: واگرایی از kullback-leiblers بین سیاستهای فعلی (πθ) و سیاست های مرجع (πref). خط مشی مرجع معمولاً نسخه اولیه خط مشی است. این قبیله مانع از انحراف بیش از حد از ابتدا از ابتدا می شود و به اطمینان از ثبات کمک می کند.
مزیت رقابتی
GRPO چندین مزیت در مقایسه با سایر تکنیک های بهینه سازی دارد ، و آن را به عنوان یک انتخاب جذاب برای Deepseek و سایر سازمان هایی که روی آموزش مدل پیچیده تمرکز دارند ، ایجاد می کند:
-
راندمان محاسباتی: از بین بردن مدل منتقد منجر به صرفه جویی در منابع قابل توجه می شود ، که هنگام تمرین مدل های بزرگ بسیار مهم است.
-
افزایش ثبات: مکانیسم های ارزیابی نسبی و کلیپ های احتمال برای اطمینان از یک فرایند آموزش با ثبات تر با هم کار می کنند.
-
قوی برای سر و صدا: GRPO نسبت به تأثیر پاداش های پر سر و صدا آسیب پذیر نیست ، که می تواند در کارهای دنیای واقعی بسیار رایج باشد.
-
اکتشاف بهتر: ارزیابی گروهی مدل ها را ترغیب می کند تا راه حل های مختلفی را امتحان کنند ، که می تواند باعث کشف استراتژی بهتری شود.
پایان
بهینه سازی سیاست نسبی گروه (GRPO) اثبات قدرت نوآوری در یادگیری تقویت است. GRPO با ترکیب ارزیابی نسبی و اهداف ساده ، مسیری جذاب برای آموزش یک مدل قوی و کارآمد ارائه می دهد.