DeepSeek-R1: موارد داخلی آسان شده است 🐋

ek3nk4r 2025-01-26

0 6 خواندن این مطلب 5 دقیقه زمان میبرد

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

این هوش مصنوعی منبع باز همه چیز را خرد می کند - DeepSeek R1 - YouTube
خوب، این هفته همه چیز در مورد DeepSeek-R1 بود که سرفصل خبرها بود. بنابراین، در این پست، بیایید درست از آن بفهمیم What مدل DeepSeek-R1 است و این است working internals در عمق

فهرست مطالب

ابتدا، DeepSeek-R1 چیست؟

DeepSeek-R1 یک مدل استدلال منبع باز است که توسط DeepSeek، یک شرکت چینی هوش مصنوعی توسعه یافته است که می تواند روی کارهایی کار کند که نیاز به استنتاج منطقی، حل مسئله ریاضی و تصمیم گیری در زمان واقعی دارند.

چیزی که مدل‌های استدلالی مانند DeepSeek-R1 و O1 OpenAI را از مدل‌های سنتی زبان بزرگ (LLM) متمایز می‌کند، توانایی آن‌ها در نشان دادن چگونگی رسیدن به نتیجه است.

بتمن DeepSeek

همانطور که در تصویر بالا می بینید، با DeepSeek-R1، می بینید که چه مراحلی را برای استدلال برای یک اعلان دنبال می کند که درک آن را آسان تر می کند و در صورت لزوم خروجی آن را به چالش می کشد. این قابلیت به مدل‌های استدلالی در زمینه‌هایی که نتایج باید قابل توضیح باشد، مانند تحقیق یا تصمیم‌گیری پیچیده، برتری می‌دهد.

همچنین این مدل اتکای صنعت را به چالش می کشد supervised fine-tuning (SFT) با نشان دادن آن reinforcement learning (RL) می تواند قابلیت های استدلال را بهبود بخشد. اما باز هم جدا از مواردی که در بالا ذکر کردم، چه چیزی باعث این امر می شود revolutionary?

ظهور مهارت خودمختار: بر خلاف GPT-4 یا غزل کلود 3.5 که به مثال‌های استدلالی توسط انسان نیاز دارد، R1-Zero مهارت هایی مانند تأیید خود و برنامه ریزی چند مرحله ای را توسعه می دهد از طریق RL خالص.
هزینه: مدل های تقطیر شده 7B عملکرد بهتری دارند GPT-4o و 1/100 هزینه آموزش
منبع باز: انتشار کامل وزنه های مدل کد آموزشی.

معماری فنی:

پایه مدل پایه:

در بالای آن ساخته شده است DeepSeek-V3-Base مدلی که – یک مدل ترکیبی از متخصصان با پارامتر 671B (MoE = ادغام چندین مدل تخصصی یا “متخصص” برای حل موثرتر مسائل پیچیده) با:

16 شبکه خبره: که هر کدام زیرمدل های تخصصی ریاضی، کد، منطق و غیره هستند
فعال سازی پویا: 37B پارامتر در هر توکن از طریق مسیریابی آموخته شده فعال می شود.
پیش آموزش: 4.8T (بله، تریلیون) توکن هایی در 52 زبان و حوزه های فنی که شامل مقالات STEM، مخازن Github می شود.

انواع R1:

مدل	پارامترها	رویکرد آموزشی	نوآوری کلیدی
R1-صفر	671B وزارت انرژی	RL خالص (بدون SFT)	کشف استدلال خودمختار
R1	671B وزارت انرژی	SFT+RL چند مرحله ای	تولید CoT همسو با انسان
R1- تقطیر	1.5B-70B	SFT در خروجی های R1	استقرار مقرون به صرفه

DeepSeek Internals در عمق:

DeepSeek-R1: استدلال هوش مصنوعی مقرون به صرفه، کارآمد و پیشرفته | توسط LM Po | ژانویه, 2025 | متوسط

1. تقویت یادگیری در هسته آن:

پیشگامانه ترین ویژگی DeepSeek-R1 تکیه بر آن است یادگیری تقویتی (RL) برای توسعه قابلیت های استدلال بر خلاف LLM های سنتی که به تنظیم دقیق نظارت شده (SFT) DeepSeek-R1 با نمونه‌های انتخاب‌شده توسط انسان، از RL برای کشف مستقل الگوهای استدلال استفاده می‌کند. در اینجا نحوه کار آن آمده است:

الف. بهینه سازی خط مشی نسبی گروه (GRPO)

این یک است critic-free چارچوب RL که هزینه های محاسباتی را کاهش می دهد 40% هنگامی که به جای Proximal Policy Optimization (PPO) استفاده می شود.
روش کار این الگوریتم به شرح زیر است:

نمونه گیری گروهی : برای هر فرمان، مدل با استفاده از خط مشی فعلی 16 = G پاسخ تولید می کند. این پاسخ ها گروهی را تشکیل می دهند که لاترون برای محاسبه پاداش ها و مزایا استفاده می شود.
عادی سازی پاداش: به هر پاسخ در گروه بر اساس دقت، فرمت و سازگاری زبان جایزه تعلق می گیرد و Advantage Ai محاسبه می شود. این نرمال سازی با کاهش واریانس در آمار گروهی به تثبیت تمرین کمک می کند.
به روز رسانی خط مشی : به حداکثر رساندن مزیت در حالی که واگرایی KL را محدود می کند. (واگرایی Kullback-Leibler (KL) یک معیار آماری است که تفاوت بین دو توزیع احتمال را اندازه گیری می کند.). در معادله زیر، β=0.01 قدرت جریمه KL را کنترل می‌کند و اطمینان می‌دهد که خط‌مشی خیلی از مرجع منحرف نمی‌شود.

معادلات دست نویس

ب. مهندسی پاداش هیبرید:

این یک سیستم پاداش سه لایه است که مانع می شود reward hacking. (هک پاداش زمانی اتفاق می‌افتد که یک عامل یادگیری تقویتی (RL) از نقایص یا ابهامات در عملکرد پاداش برای دستیابی به پاداش‌های بالا، بدون یادگیری واقعی یا تکمیل کار مورد نظر، سوء استفاده می‌کند. هک پاداش به این دلیل وجود دارد که محیط‌های RL اغلب ناقص هستند و تعیین دقیق یک تابع پاداش اساساً چالش برانگیز است.)

نوع پاداش	روش محاسبه	وزن (λ)
دقت (r_acc)	باینری (1 اگر پاسخ نهایی درست باشد)	1.0
قالب (r_fmt)	شباهت کسینوس به <فکر کن>/> الگو	0.3
زبان (r_lang)	درصد نشانه ها در زبان مقصد	0.2

کل پاداش: r_total = r_acc + λ1r_fmt + λ2r_lang

2. تنظیم دقیق نظارت شده با شروع سرد (SFT):

قبل از اعمال RL، DeepSeek-R1 از مرحله SFT شروع سرد می گذرد که به seeding مدل با الگوهای استدلال پایه حال، این مرحله شامل موارد زیر است:

A. مجموعه داده انتخاب شده

~ 1000 نمونه زنجیره فکر (CoT) با کیفیت بالا به صورت دستی تنظیم شده است.
هر نمونه از یک الگوی سختگیرانه به سبک XML پیروی می کند:

vim

ب. اجرای الگو:

3. نمونه گیری رد برای داده های با کیفیت بالا:

پس از فرآیند RL، DeepSeek-R1 تولید می کند 600 هزار نمونه استدلال با کیفیت بالا از طریق نمونه گیری رد. روش کار به این صورت است:

تولید نمونه :
- مدل RL پاسخ های متعددی را برای هر درخواست ایجاد می کند.
- فقط آن ها پاسخ هایی که عبور می کنند مبتنی بر قانون چک ها حفظ می شود
فیلتر معنایی :
- پاسخ هایی با انسجام معنایی پایین یا استدلال نادرست کنار گذاشته می شوند.
مجموعه داده نهایی :
- مجموعه داده فیلتر شده برای تنظیم دقیق و تقطیر بیشتر استفاده می شود.

4. تقطیر به مدل های کوچکتر

قابلیت‌های استدلال DeepSeek-R1 برای استقرار مقرون‌به‌صرفه در مدل‌های کوچک‌تر (پارامترهای 1.5B–70B) تقطیر می‌شود. فرآیند تقطیر شامل:

ایجاد مجموعه داده :
- 800 هزار نمونه از مدل آموزش دیده RL تولید می شود.
- این نمونه ها هم شامل استدلال (600k) و هم وظایف عمومی (200k) می شود.
تنظیم دقیق :
- مدل‌های کوچک‌تر (مانند Qwen-7B، Llama-70B) روی مجموعه داده‌های مقطر به‌خوبی تنظیم شده‌اند.
- هیچ RL در طول تقطیر اعمال نمی شود، که آن را از نظر محاسباتی کارآمد می کند.
عملکرد :
- مدل 7B مقطر به دست می آورد 55.5% pass@1 در AIME 2024، عملکرد بهتری از GPT-4o (9.3٪) با کسری از هزینه داشت.

تجزیه و تحلیل عملکرد: معیارها

استدلال ریاضی

معیار	R1	R1-صفر	GPT-40	کارشناس انسانی
AIME 2024 (pass@1)	79.8٪	71.0٪	9.3٪	85%
MATH-500 (گذر @1)	97.3٪	95.9٪	74.6٪	98%
رسمی کردن مشکل IMO	81%	N/A	22%	89%

بینش کلیدی: R1 از طریق:

بازیافت مرحله ای: استفاده مجدد از راه حل های جزئی در مشکلات مشابه
آمیختگی نمادین-آماری: ترکیب شهود عصبی با ساده سازی های جبری

برنامه نویسی و مهندسی نرم افزار

وظیفه	R1	GPT-40	SWE Human
LiveCodeBench (pass@1)	65.9٪	32.9٪	72%
کدفورس الو	2029	759	2100 (صدک 95)
SWE-Bench حل و فصل شد	49.2٪	38.8٪	58%

پیشرفت ها:

زنجیره های اشکال زدایی: به طور خودکار موارد آزمایشی را برای تأیید وصله های کد ایجاد می کند
انتقال بین زبانی: مشکلات پایتون را حل می کند و سپس راه حل ها را به Rust پورت می کند

درک DeepSeek R1: چگونه یادگیری تقویتی استدلال مدل زبان را تغییر می دهد؟ • Tech Explorer 🚀