برنامه نویسی

مقاله Deepseek AI – جامعه dev

3 چیز از مقاله Deepseek AI R1

1⃣ پرش از تنظیم دقیق نظارت: استدلال بهتر ، خوانایی فقیرتر

⛳ اکثر LLM ها از سه مرحله پیروی می کنند: پیشگویی برای درک زبان ، تنظیم دقیق برای یادگیری خاص وظیفه و یادگیری تقویت برای تراز کردن با ترجیحات انسانی با استفاده از سیستم های پاداش.

⛳ Deepseek-R1-Zero با پرش از تنظیم دقیق و کاملاً متکی به یادگیری تقویت ، این قالب را شکست.

⛳ به گفته نویسندگان ، این به این مدل اجازه می دهد تا به طور مستقل مهارت های استدلال را توسعه دهد ، از جمله توانایی تخصیص زمان تفکر طولانی و تولید هزاران نشانه استدلال برای حل کارهای پیچیده. این رویکرد غیر متعارف به طور قابل توجهی عملکرد را تقویت می کند ، حتی از Openai-O1 در معیارها پیشی می گیرد.

با این حال ، متن تولید شده به ویژه قابل خواندن کمتر است ، محدودیت تصدیق شده از Deepseek-R1-Zero.

داده های با کیفیت بالا باقی مانده است
⛳ در حالی که Deepseek-R1-Zero با یادگیری تقویت خالص به نتایج قابل توجهی دست یافت ، معرفی مجموعه کوچکی از داده های شروع سرد با دقت برای تنظیم دقیق (هزاران نمونه با کیفیت بالا) در Deepseek-R1 منجر به پیشرفت های قابل توجه در خوانایی ، زبان شد. قوام و استدلال.
⛳ این نشان می دهد که چگونه حتی حداقل مقادیر داده با کیفیت بالا می تواند به طور چشمگیری اثربخشی مدل های آموزش دیده RL را افزایش دهد.

3⃣ تقطیر بیش از آموزش برای مدلهای کوچکتر
⛳ قابلیت های استدلال Deepseek-R1 به مدلهای کوچکتر اعم از پارامترهای 1.5B تا 70B تقطیر شد. این مدل های مقطر به طور مداوم از مدل های بسیار بزرگتر مانند GPT-4O و Claude-5.5-sonnet در معیارهای مختلف بهتر عمل می کنند.
⛳ این نشان می دهد که تقطیر به مدل های کوچکتر اجازه می دهد تا توانایی های استدلال قابل توجه را از مدلهای بزرگتر و قدرتمندتر به ارث برده باشند ، اغلب از مدل های بهتر از ابتدا آموزش می بینند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا