DeepSeek-R1: موارد داخلی آسان شده است 🐋

خوب، این هفته همه چیز در مورد DeepSeek-R1 بود که سرفصل خبرها بود. بنابراین، در این پست، بیایید درست از آن بفهمیم What
مدل DeepSeek-R1 است و این است working internals
در عمق
ابتدا، DeepSeek-R1 چیست؟
DeepSeek-R1 یک مدل استدلال منبع باز است که توسط DeepSeek، یک شرکت چینی هوش مصنوعی توسعه یافته است که می تواند روی کارهایی کار کند که نیاز به استنتاج منطقی، حل مسئله ریاضی و تصمیم گیری در زمان واقعی دارند.
چیزی که مدلهای استدلالی مانند DeepSeek-R1 و O1 OpenAI را از مدلهای سنتی زبان بزرگ (LLM) متمایز میکند، توانایی آنها در نشان دادن چگونگی رسیدن به نتیجه است.
همانطور که در تصویر بالا می بینید، با DeepSeek-R1، می بینید که چه مراحلی را برای استدلال برای یک اعلان دنبال می کند که درک آن را آسان تر می کند و در صورت لزوم خروجی آن را به چالش می کشد. این قابلیت به مدلهای استدلالی در زمینههایی که نتایج باید قابل توضیح باشد، مانند تحقیق یا تصمیمگیری پیچیده، برتری میدهد.
همچنین این مدل اتکای صنعت را به چالش می کشد supervised fine-tuning
(SFT) با نشان دادن آن reinforcement learning
(RL) می تواند قابلیت های استدلال را بهبود بخشد. اما باز هم جدا از مواردی که در بالا ذکر کردم، چه چیزی باعث این امر می شود revolutionary?
-
ظهور مهارت خودمختار: بر خلاف GPT-4 یا غزل کلود 3.5 که به مثالهای استدلالی توسط انسان نیاز دارد،
R1-Zero
مهارت هایی مانند تأیید خود و برنامه ریزی چند مرحله ای را توسعه می دهد از طریق RL خالص. - هزینه: مدل های تقطیر شده 7B عملکرد بهتری دارند GPT-4o و 1/100 هزینه آموزش
- منبع باز: انتشار کامل وزنه های مدل کد آموزشی.
معماری فنی:
پایه مدل پایه:
در بالای آن ساخته شده است DeepSeek-V3-Base
مدلی که – یک مدل ترکیبی از متخصصان با پارامتر 671B (MoE = ادغام چندین مدل تخصصی یا “متخصص” برای حل موثرتر مسائل پیچیده) با:
- 16 شبکه خبره: که هر کدام زیرمدل های تخصصی ریاضی، کد، منطق و غیره هستند
- فعال سازی پویا: 37B پارامتر در هر توکن از طریق مسیریابی آموخته شده فعال می شود.
- پیش آموزش: 4.8T (بله، تریلیون) توکن هایی در 52 زبان و حوزه های فنی که شامل مقالات STEM، مخازن Github می شود.
انواع R1:
مدل | پارامترها | رویکرد آموزشی | نوآوری کلیدی |
---|---|---|---|
R1-صفر | 671B وزارت انرژی | RL خالص (بدون SFT) | کشف استدلال خودمختار |
R1 | 671B وزارت انرژی | SFT+RL چند مرحله ای | تولید CoT همسو با انسان |
R1- تقطیر | 1.5B-70B | SFT در خروجی های R1 | استقرار مقرون به صرفه |
DeepSeek Internals در عمق:
1. تقویت یادگیری در هسته آن:
پیشگامانه ترین ویژگی DeepSeek-R1 تکیه بر آن است یادگیری تقویتی (RL) برای توسعه قابلیت های استدلال بر خلاف LLM های سنتی که به تنظیم دقیق نظارت شده (SFT) DeepSeek-R1 با نمونههای انتخابشده توسط انسان، از RL برای کشف مستقل الگوهای استدلال استفاده میکند. در اینجا نحوه کار آن آمده است:
الف. بهینه سازی خط مشی نسبی گروه (GRPO)
این یک است critic-free
چارچوب RL که هزینه های محاسباتی را کاهش می دهد 40% هنگامی که به جای Proximal Policy Optimization (PPO) استفاده می شود.
روش کار این الگوریتم به شرح زیر است:
- نمونه گیری گروهی : برای هر فرمان، مدل با استفاده از خط مشی فعلی 16 = G پاسخ تولید می کند. این پاسخ ها گروهی را تشکیل می دهند که لاترون برای محاسبه پاداش ها و مزایا استفاده می شود.
- عادی سازی پاداش: به هر پاسخ در گروه بر اساس دقت، فرمت و سازگاری زبان جایزه تعلق می گیرد و Advantage Ai محاسبه می شود. این نرمال سازی با کاهش واریانس در آمار گروهی به تثبیت تمرین کمک می کند.
- به روز رسانی خط مشی : به حداکثر رساندن مزیت در حالی که واگرایی KL را محدود می کند. (واگرایی Kullback-Leibler (KL) یک معیار آماری است که تفاوت بین دو توزیع احتمال را اندازه گیری می کند.). در معادله زیر، β=0.01 قدرت جریمه KL را کنترل میکند و اطمینان میدهد که خطمشی خیلی از مرجع منحرف نمیشود.
ب. مهندسی پاداش هیبرید:
این یک سیستم پاداش سه لایه است که مانع می شود reward hacking
. (هک پاداش زمانی اتفاق میافتد که یک عامل یادگیری تقویتی (RL) از نقایص یا ابهامات در عملکرد پاداش برای دستیابی به پاداشهای بالا، بدون یادگیری واقعی یا تکمیل کار مورد نظر، سوء استفاده میکند. هک پاداش به این دلیل وجود دارد که محیطهای RL اغلب ناقص هستند و تعیین دقیق یک تابع پاداش اساساً چالش برانگیز است.)
نوع پاداش | روش محاسبه | وزن (λ) |
---|---|---|
دقت (r_acc) | باینری (1 اگر پاسخ نهایی درست باشد) | 1.0 |
قالب (r_fmt) | شباهت کسینوس به <فکر کن>/ |
0.3 |
زبان (r_lang) | درصد نشانه ها در زبان مقصد | 0.2 |
کل پاداش: r_total = r_acc + λ1r_fmt + λ2r_lang
2. تنظیم دقیق نظارت شده با شروع سرد (SFT):
قبل از اعمال RL، DeepSeek-R1 از مرحله SFT شروع سرد می گذرد که به seeding
مدل با الگوهای استدلال پایه حال، این مرحله شامل موارد زیر است:
A. مجموعه داده انتخاب شده
- ~ 1000 نمونه زنجیره فکر (CoT) با کیفیت بالا به صورت دستی تنظیم شده است.
- هر نمونه از یک الگوی سختگیرانه به سبک XML پیروی می کند:
ب. اجرای الگو:
3. نمونه گیری رد برای داده های با کیفیت بالا:
پس از فرآیند RL، DeepSeek-R1 تولید می کند 600 هزار نمونه استدلال با کیفیت بالا از طریق نمونه گیری رد. روش کار به این صورت است:
-
تولید نمونه :
- مدل RL پاسخ های متعددی را برای هر درخواست ایجاد می کند.
- فقط آن ها پاسخ هایی که عبور می کنند مبتنی بر قانون چک ها حفظ می شود
-
فیلتر معنایی :
- پاسخ هایی با انسجام معنایی پایین یا استدلال نادرست کنار گذاشته می شوند.
-
مجموعه داده نهایی :
- مجموعه داده فیلتر شده برای تنظیم دقیق و تقطیر بیشتر استفاده می شود.
4. تقطیر به مدل های کوچکتر
قابلیتهای استدلال DeepSeek-R1 برای استقرار مقرونبهصرفه در مدلهای کوچکتر (پارامترهای 1.5B–70B) تقطیر میشود. فرآیند تقطیر شامل:
-
ایجاد مجموعه داده :
- 800 هزار نمونه از مدل آموزش دیده RL تولید می شود.
- این نمونه ها هم شامل استدلال (600k) و هم وظایف عمومی (200k) می شود.
-
تنظیم دقیق :
- مدلهای کوچکتر (مانند Qwen-7B، Llama-70B) روی مجموعه دادههای مقطر بهخوبی تنظیم شدهاند.
- هیچ RL در طول تقطیر اعمال نمی شود، که آن را از نظر محاسباتی کارآمد می کند.
-
عملکرد :
- مدل 7B مقطر به دست می آورد 55.5% pass@1 در AIME 2024، عملکرد بهتری از GPT-4o (9.3٪) با کسری از هزینه داشت.
تجزیه و تحلیل عملکرد: معیارها
استدلال ریاضی
معیار | R1 | R1-صفر | GPT-40 | کارشناس انسانی |
---|---|---|---|---|
AIME 2024 (pass@1) | 79.8٪ | 71.0٪ | 9.3٪ | 85% |
MATH-500 (گذر @1) | 97.3٪ | 95.9٪ | 74.6٪ | 98% |
رسمی کردن مشکل IMO | 81% | N/A | 22% | 89% |
بینش کلیدی: R1 از طریق:
- بازیافت مرحله ای: استفاده مجدد از راه حل های جزئی در مشکلات مشابه
- آمیختگی نمادین-آماری: ترکیب شهود عصبی با ساده سازی های جبری
برنامه نویسی و مهندسی نرم افزار
وظیفه | R1 | GPT-40 | SWE Human |
---|---|---|---|
LiveCodeBench (pass@1) | 65.9٪ | 32.9٪ | 72% |
کدفورس الو | 2029 | 759 | 2100 (صدک 95) |
SWE-Bench حل و فصل شد | 49.2٪ | 38.8٪ | 58% |
پیشرفت ها:
- زنجیره های اشکال زدایی: به طور خودکار موارد آزمایشی را برای تأیید وصله های کد ایجاد می کند
- انتقال بین زبانی: مشکلات پایتون را حل می کند و سپس راه حل ها را به Rust پورت می کند