برنامه نویسی

Deepseek-R1 چیست ؟: راهنمای ساده در 5 دقیقه

فقط در 3-4 روز ، Deepseek فیدهای توییتر ما را به دست گرفت. من تصمیم گرفتم که به عمق آن شیرجه بزنم و در حالی که این کار را انجام می دهم ، این وبلاگ را بر اساس یادداشت های خود نوشتم. بنابراین در اینجا یک نسخه ساده از آنچه Deepseek در زیر کاپوت انجام می دهد (واقعاً زیر کاپوت نیست زیرا آنها منبع باز هستند ، هاها).

در حالی که OpenAI برخی از بهترین LLM ها را فراهم می کند ، Deepseek با بهبود قابلیت های استدلال با استفاده از یادگیری تقویت کننده (RL) مرزها را تحت فشار قرار می دهد.

آنها دو مدل دارند:

Deepseek-R1-Zero: صرفاً در RL آموزش دیده است.

Deepseek-R1: آموزش داده شده در RL و تنظیم دقیق (SFT).

RL چیست؟ این یک نوع یادگیری ماشین است که در آن یک مدل AI با آزمایش و خطا می آموزد. این امر به خاطر اقدامات خوب پاداش می گیرد و به دلیل بد بودن مجازات می شود و به پیشرفت آن در بهبود زمان کمک می کند. به عنوان مثال ، در شطرنج:

مدل (یا عامل) حرکات مختلف (اقدامات) را برای دستیابی به یک هدف (به عنوان مثال ، چک) انجام می دهد.

این بهترین حرکت را در هر مرحله نمی داند اما با آزمایش و دریافت بازخورد (پاداش یا مجازات) می آموزد.

هدف این است که یک سیاست (یک استراتژی) ایجاد شود که پاداش کل را در طول زمان به حداکثر برساند ، حتی اگر نتیجه فوری هر عمل قطعی نباشد.

SFT چیست؟ SFT فرایندی است که یک مدل بیشتر در یک مجموعه داده خاص با مثال های دارای برچسب (به عنوان مثال ، سؤالات و پاسخ های صحیح) آموزش داده می شود. این به مدل کمک می کند تا در کارهای خاص تخصص داشته باشد.

رویکرد
بیایید سه رویکرد اصلی مورد استفاده را تجزیه کنیم:

Deepseek-R1-Zero: آموزش RL خالص در مدل پایه.

DeepSeek-R1: آموزش چند مرحله ای با داده های RL ، SFT و سرد.

تقطیر: انتقال قابلیت های استدلال به مدلهای کوچکتر.

Deepseek-R1-Zero: آموزش خالص RL
الگوریتم یادگیری تقویت
آنها از بهینه سازی سیاست نسبی گروه (GRPO) استفاده می کنند ، در اینجا نحوه عملکرد آن آورده شده است:

“به GRPO فکر کنید مانند یک معلم که گروهی از دانش آموزان را درجه بندی می کند. معلم عملکرد هر دانش آموز را با میانگین کلاس مقایسه می کند ، و اطمینان می دهد که هیچ کس خیلی جلوتر یا عقب نیست. این آموزش را پایدار نگه می دارد و از تغییرات شدید جلوگیری می کند.”

نمونه گیری گروه: برای هر سوال ، مدل گروهی از پاسخ ها را تولید می کند. پاداش هر پاسخ با میانگین پاداش گروه مقایسه می شود که به تثبیت آموزش کمک می کند.

محاسبه مزیت: مزیت هوش مصنوعی برای هر پاسخ به این صورت محاسبه می شود:

ai = (ri – mean ({r1 ، r2 ،… ، rg})) / std ({r1 ، r2 ،… ، rg})

جایی که RI پاداش پاسخ I-TH است ، و G اندازه گروه است.

به روزرسانی خط مشی: هدف این است که خط مشی را به حداکثر رساندن پاداش مورد انتظار ضمن نزدیک نگه داشتن خط مشی جدید به قدیمی (برای جلوگیری از تغییرات شدید) به روز کنید.

مدل سازی پاداش
آنها از یک سیستم پاداش مبتنی بر قانون با دو مؤلفه استفاده می کنند:

پاداش دقت: مدل برای پاسخ های صحیح پاداش می گیرد. به عنوان مثال:

در مشکلات ریاضی ، پاسخ نهایی باید در یک قالب خاص (به عنوان مثال در داخل یک جعبه) برای تأیید خودکار باشد.

در کارهای برنامه نویسی ، کد در برابر موارد آزمایش از پیش تعریف شده تست و آزمایش می شود.

پاداش فرمت: این مدل برای پیروی از قالب صحیح ، مانند محصور کردن فرآیند استدلال در برچسب ها و پاسخ نهایی در برچسب ها ، پاداش می گیرد.

بیایید به یک اصطلاح مهم حرکت کنیم: زنجیره ای افکار (COT)
آنچه در آن است: COT تکنیکی است که در آن مدل قبل از پاسخ نهایی ، مرحله به مرحله استدلال خود را توضیح می دهد. به عنوان مثال ، به جای گفتن “2 + 2 = 4” ، مدل ممکن است بگوید ، “اول ، من 2 و 2 را اضافه می کنم ، که برابر با 4. است.”

در Deepseek ، آنها مدل را به استفاده از COT برای بهبود استدلال خود و شفاف تر کردن روند فکر خود تشویق می کنند.

در حین استفاده از DeepSeek می توانید از دکمه “Think” استفاده کنید تا بررسی کنید که چگونه مدل به یک پاسخ خاص رسیده است.

Deepseek-R1: آموزش چند مرحله ای

شرح تصویر

شروع سرد
آنها برای پرداختن به خواسته های خوانایی و مخلوط کردن زبان Deepseek-R1-Zero ، داده های شروع سرد را معرفی کردند:

جمع آوری داده ها: هزاران نمونه از استدلال با کیفیت بالا با استفاده از فرکانس چند شات ، خروجی های تولید شده از مدل و حاشیه نویسی انسانی جمع آوری می شود.

تنظیم دقیق: مدل پایه (Deepseek-V3-Base) قبل از استفاده از RL بر روی این داده های شروع سرد تنظیم شده است.

RL استدلال گرا
پس از تنظیم دقیق ، این مدل تحت آموزش RL شبیه به Deepseek-R1-Zero قرار می گیرد. با این حال ، آنها همچنین پاداش قوام زبان را برای کاهش اختلاط زبان معرفی می کنند: (چینی و انگلیسی)

قوام زبان: پاداش بر اساس نسبت کلمات زبان هدف در فرآیند استدلال است. این مدل را با ترجیحات انسانی برای خوانایی تراز می کند.
نمونه گیری رد و SFT
پس از همگرایی مدل RL ، از نمونه گیری رد برای تولید داده های آموزش با کیفیت بالا استفاده می شود:

“نمونه گیری رد کردن تکنیکی است که در آن مدل پاسخ های مختلفی ایجاد می کند ، و فقط بهترین موارد (بر اساس صحت و کیفیت) برای آموزش بیشتر نگهداری می شوند”

داده های استدلال: این مدل برای هر سریع پاسخ های مختلفی ایجاد می کند و فقط موارد صحیح حفظ می شوند. این منجر به نمونه های آموزش مربوط به استدلال 600K می شود.

داده های غیر فصلی: داده های اضافی از دامنه ها مانند نوشتن ، QA واقعی و خود شناخت جمع آوری شده است ، در کل نمونه های 200K پوند.

تنظیم دقیق: مدل پایه برای دو دوره در این مجموعه داده ترکیبی تنظیم شده است.

RL برای همه سناریوها
مرحله دوم RL برای تراز کردن مدل با ترجیحات انسانی در تمام سناریوها اعمال می شود:

کمک و بی ضرر: این مدل برای اولویت بندی پاسخ های مفید و بی ضرر ، با استفاده از مدل های پاداش برای گرفتن ترجیحات انسانی در سناریوهای پیچیده آموزش دیده است.

تقطیر: آنها همچنین تقطیر را معرفی می کنند اما ما به عمق آن نمی رویم. تقطیر از نظر اساسی فرایندی است که قابلیت های استدلال را از مدل های بزرگتر به مدل های کوچکتر منتقل می کند (که سریعتر و ارزان تر هستند).

جادوی تکامل خود
جادویی ترین بخش در مورد مدل های آنها ، تکامل خود است. این مدل به طور طبیعی رفتارهای استدلال پیشرفته مانند بازتاب (تجدید نظر در مراحل قبلی) و استدلال زنجیره ای طولانی (ایجاد صدها نشانه استدلال) را توسعه می دهد. این رفتارها بدون برنامه نویسی صریح پدیدار می شوند و قدرت RL را نشان می دهند.

این همه چیز است!

در نتیجه ، مدل R1 Deepseek با مدل های سری O1 OpenAi در معیارهای مختلف (و رایگان است) همزمان است. امیدوارم که این ساده و به اندازه کافی واضح باشد تا یک ایده اساسی در مورد نحوه عملکرد آن بدست آورد.

اگر برای کسب اطلاعات بیشتر کنجکاو هستید ، من به شدت توصیه می کنم مقاله آنها را در اینجا بخوانید.

احساس راحتی کنید که به من دسترسی پیدا کنید: X (توییتر) | وابسته به لینکدین

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا