MDIR: اگر یک مدل مجرد بتواند قبل از پاسخ دادن با خودش بحث کند چه؟

خلاصه ۲۰۰ کلمهای معماری MDIR:
معماری MDIR: استدلال درونمدلی برای کاهش توهمات LLM
MDIR معماری نوینی برای یکپارچهسازی پردازشهای شناختی چندلایه در یک مدل واحد پیشنهاد میدهد، در تضاد با رویکرد چندعاملی (مانند Grok 4.20). این معماری با ستون فقرات ترانسفورماتور استاندارد شروع میشود و حالتهای پنهان لایههای مختلف انتزاع (سطح نحوی، معنایی، مفاهیم و "تصویر بزرگ") را هدف قرار میدهد.
هسته اصلی: چهار "سر استدلال" (RH) با نقشهای ساختاری مشخص:
- رهبر (Lead): پیشبهای اصلی با تمرکز امیدوارانه.
- منتقد (Critic): با توجه معکوس، به نقاط ضعف و تناقضات میپردازد.
- کاوشگر (Explorer): با وارونگی توزیع، مناطق کماحتمال داده را جستجو میکند.
- تأییدکننده (Verifier): استدلالهای دوطرفه را بررسی میکند.
یک روتر پویا نقشها را بر اساس وضعیت بحث تخصیص مجدد میکند و یک حافظه کاری ساختاریافته (شامل نتیجه، اعتماد به نفس، نقشه توجه و اختلاف نظرها) جهت شفافسازی فرآیند استدلال ایجاد میکند. در نهایت، مجمعکننده (Assembler) با حل اختلاف صریح (نه میانگینگیری) پاسخ نهایی را تولید میکند.
مزیت اصلی: MDIR از طریق استدلال در فضاپنهان (نه متن) و مکانیزمهای معماری متنوع، همگرایی مدل را کاهش میدهد. این طرح رویکردی نوآورانه برای کاهش توهمات (از ۱۲% به ۴.۲% در شبیهسازیها) ارائه میدهد، اما همچنان در مراحل تحقیقاتی با چالشهایی نظیر آموزش نقشها و ارزیابی کیفیت استدلال مواجه است.
معماری جدید برای شکستن همگرایی LLM – از درون
فوریه 2026
در 17 فوریه 2026، xAI بتای عمومی Grok 4.20 را منتشر کرد. ویژگی سرفصل آن: چهار عامل تخصصی هوش مصنوعی – یک کاپیتان، یک محقق، یک منطق دان و یک خلاق – که قبل از ارائه پاسخ نهایی با یکدیگر بحث می کنند. نتیجه: توهمات از 12% به 4.2% کاهش یافت.
این قابل توجه است. اما یک سوال عمیق تر وجود دارد که رویکرد گروک به آن توجه نمی کند: اگر این بررسی در یک مدل واحد اتفاق بیفتد، نه بین مدل های جداگانه چه؟
این فرضیه پشت سر است MDIR – استدلال تکراری چند عمقی – معماری که ما طراحی کردهایم که چندین پردازنده شناختی را در یک ستون فقرات ترانسفورماتور جاسازی میکند، که هر کدام در سطح متفاوتی از انتزاع عمل میکنند، با نقشهای عملکردی متمایز، قبل از اینکه اسمبلر درباره اختلاف نظرهای خود استدلال کند، از طریق یک حافظه کاری مشترک بحث میکند.
این یک کاغذ نیست این یک سند طراحی است – گزارشی صادقانه از آنچه معماری پیشنهاد می کند، آنچه واقعاً جدید است، آنچه قرض گرفته شده است، و آنچه ما هنوز نمی دانیم چگونه بسازیم.
مشکل: یک صدا، یک توزیع
هر LLM فعلی، مهم نیست چقدر بزرگ است، خروجی را از طریق یک مسیر واحد تولید می کند: نشانه به نشانه، هر کدام با توجه به زمینه محتمل ترین ادامه را دارند. حتی با درخواست زنجیرهای از فکر یا نمونهبرداری دما، مدل در یک توزیع واحد که از دادههای آموزشی به دست میآید عمل میکند.
این یک محدودیت اساسی ایجاد می کند: مدل واقعا نمی تواند خودش را غافلگیر کند. نمی تواند نتیجه ای از تقابل دیدگاه های متضاد به دست آورد، زیرا هیچ دیدگاه مخالفی ندارد. یک صدا دارد.
رویکرد “مناظره چند عاملی” (که توسط Grok 4.20 استفاده شد و توسط Du و همکاران 2023 به صورت آکادمیک مورد بررسی قرار گرفت) این مشکل را با اجرای چندین مدل جداگانه و ایجاد استدلال آنها حل می کند. اما این گران است، از نظر معماری بیظرافت است، و بحث در سطح متن اتفاق میافتد – مدلها به زبان طبیعی بحث میکنند، نه در فضای بازنمایی.
اگر بحث در داخل مدل، در فضای پنهان، بین پردازندههای تخصصی که مشکل را در سطوح اساساً متفاوتی از انتزاع میبینند، اتفاق میافتد؟
معماری MDIR
ستون فقرات با شیر
MDIR با ستون فقرات ترانسفورماتور استاندارد شروع می شود. اینجا چیز جدیدی نیست اما به جای اینکه فقط از خروجی لایه نهایی استفاده کنیم، ما ضربه بزنید حالات پنهان در اعماق چندگانه:
- لایه 2: ویژگی های سطح – نحو، الگوهای محلی
- لایه 4: ویژگی های معنایی – معنای لغوی
- لایه 6: روابط انتزاعی – مفاهیم، استنباط
- لایه 8: بازنمایی های سطح بالا – “تصویر بزرگ”
هر ضربه تغذیه متفاوت است سر استدلال (RH). بینش کلیدی: یک سوال اساساً در لایه 2 با لایه 8 متفاوت به نظر می رسد. نمایش سطح سطح ممکن است “2 + 2” را به عنوان الگویی برای تکمیل ببیند. نمایش عمیق حسابی را درک می کند.
این ویژگی اهرام (قرض گرفته شده از بینایی کامپیوتر) نیست که روی زبان اعمال شود. این به رسمیت شناختن است که عمق در یک ترانسفورماتور مربوط به سطح انتزاع استو استدلال از رویارویی همزمان چندین سطح انتزاعی سود می برد.
سران استدلال: نه متخصص – حالت های شناختی
اینجاست که MDIR از هر چیزی که وجود دارد فاصله می گیرد.
در ترکیبی از کارشناسان (MoE) مانند خود Mixtral یا Grok، کارشناسان از نظر ساختاری شبکههای یکسانی هستند که تخصصهای ضمنی را از طریق آموزش توسعه میدهند. شما نمی توانید به یک متخصص نگاه کنید و بگویید “این یکی ریاضی می کند” – تخصص آماری است، نه معماری.
سران استدلال MDIR دارند حالت های پردازش ساختاری متفاوت بر اساس نقش تعیین شده آنها:
سرب مانند یک سر ترانسفورماتور استاندارد عمل می کند – توجه متمرکز، پیش بینی های با اطمینان بالا، “پاسخ واضح”. این پایه است. این چیزی است که مدل بدون تعمق می گوید.
منتقد چیزی را دارد که ما می گوییم توجه معکوس. به جای توجه به برجسته ترین نشانه ها، به سمت مناطقی که RH های دیگر نشان می دهند تعصب دارد. اعتماد به نفس پایین. یک نقشه اطمینان از سران دیگر دریافت می کند و یک “نقشه خطا” را محاسبه می کند – به طور فعال نقاط ضعف، تناقضات، و مفروضات غیر قابل توجیه را جستجو می کند. این تخصص آموخته نشده است. این یک مکانیسم معماری است که منتقد را مجبور می کند به جایی که دیگران نگاه نمی کنند نگاه کند.
کاوشگر اجرا می کند وارونگی توزیع. توزیع احتمال ستون فقرات را می گیرد و جرم احتمال را به سمت نشانه هایی که ستون فقرات آنها را بعید می داند، سوق می دهد – نه به طور تصادفی (این فقط دمای بالا است)، بلکه از طریق یک پیش بینی دافعه آموخته شده که انسجام را حفظ می کند در حالی که کاوش در فضایی که داده های آموزشی پوشش نمی دهند را مجبور می کند. مکانیسم: حالت پنهان کاوشگر را در زیرفضای متعامد با نمایش ستون فقرات، نمایش دهید.
تایید کننده اجرا می کند راستی آزمایی علی دوطرفه. ترانسفورماتورهای استاندارد یک طرفه هستند – آنها به جلو پیش بینی می کنند. تأییدکننده هر دو جهت را بررسی میکند: آیا نتیجهگیری از مقدمات ناشی میشود و آیا مقدمات لزوماً به این نتیجه میرسند؟ این یک مکانیسم ساختاری برای بررسی سازگاری منطقی است، نه یک رفتار آموخته شده.
نکته بسیار مهم: اینها برچسب نیستند. منتقد فقط تولید متن «با صدای انتقادی» را یاد نمی گیرد. مکانیسم توجه آن از نظر معماری برای تمرکز بر نقاط ضعف سیمکشی شده است. Explorer فقط در دمای بالا نمونه برداری نمی کند. نمایش آن به دور از پیش بینی های مطمئن ستون فقرات پیش بینی می شود.
تعیین نقش پویا
اینجاست که جالب می شود. نقش ها ثابت نیستند
الف روتر – خود یک شبکه کوچک است که وضعیت بحث را مشاهده می کند – در هر تکرار نقش هایی را به RH ها اختصاص می دهد. پس از دور 1، اگر Critic اشکالات عمده ای پیدا کند، روتر ممکن است Explorer را به یک منتقد دوم تبدیل کند تا تحلیل را عمیق تر کند. اگر اتفاق نظر وجود داشته باشد، ممکن است زودتر متوقف شود.
روتر تصمیم می گیرد:
- هر RH چه نقشی در این تکرار بازی می کند
- اولویت / وزن هر RH
- آیا باید به مشورت ادامه داد یا متوقف شد
این مسیریابی MoE نیست (که یک بار توکن ها را به متخصصان ثابت هدایت می کند). این است تخصیص مجدد استراتژیک حالت های شناختی در سراسر تکرار، از وضعیت در حال تحول بحث مطلع شد.
حافظه کاری: فضای بحث و گفتگوی ساختاریافته
حافظه کاری یک بافر برداری با میانگین وزنی نیست.
هر RH یک را می نویسد ورود ساختار یافته بعد از هر تکرار:
{
conclusion: the hidden state output
confidence: how certain this RH is
attention_map: WHAT the RH focused on (shared transparently)
disagreements: with WHOM it disagrees and on WHAT
}
وقتی RH از حافظه می خواند، می خواند به طور انتخابی بر اساس نقش آن:
- منتقد ورودی ها را با اطمینان بالا جستجو می کند (هدف هایی برای به چالش کشیدن)
- کاوشگر ورودی هایی را با توافق بالا جستجو می کند (توافق برای شکستن)
- Verifier به دنبال زنجیره های استدلال برای اعتبار سنجی می گردد
نقشه های توجه به اشتراک گذاشته شده است. این بدان معنی است که هر RH می تواند نه تنها آنچه را که دیگران نتیجه گرفتند، بلکه می بیند چرا – به کدام بخش از ورودی توجه کردند. این باعث می شود که بحث در فضای بازنمایی اتفاق بیفتد، نه در فضای نشانه.
مونتاژ کننده: یک قاضی، نه یک میانگین
پس از پایان بررسی، اسمبلر خروجی نهایی را تولید می کند. اما معدل یا رای نمی دهد.
اجرا می کند حل اختلاف صریح:
- مناطق اجماع: جایی که همه RH ها موافق هستند – مستقیماً بپذیرید
- مناطق اختلاف نظر: جایی که RH ها واگرا می شوند – اسمبلر باید در مورد چرایی استدلال کند
برای هر اختلاف نظر:
- آیا منتقد یک نقص معتبر در موقعیت رهبر پیدا کرد؟
- آیا اکسپلورر جایگزین منسجم تری پیدا کرد؟
- آیا تأییدکننده زنجیرههای استدلال خاصی را تأیید یا بیاعتبار کرد؟
اسمبلر می تواند اکثریت را رد کند اگر یک موقعیت اقلیت شواهد پشتیبان قوی تری داشته باشد (همانطور که با نمرات تأیید و انسجام زنجیره استدلال اندازه گیری می شود).
این یک سیگنال فرااعتماد ساطع می کند:
- بالا: اجماع قوی + تأیید تصویب شد
- متوسط: اختلاف با عدم قطعیت باقیمانده حل شد
- کم: اختلاف حل نشده، پاسخ بهترین تلاش است
این اساساً با هر مکانیسم مجموعه موجود متفاوت است. راهاندازی وزارت دفاع، میانگینگیری مدل، رأی اکثریت – هیچکدام از اینها دلیلی برای اختلاف نظر ندارند. آنها با اختلاف نظر به عنوان سر و صدایی برخورد می کنند که باید صاف شود. MDIR با آن برخورد می کند اطلاعات مورد تجزیه و تحلیل.
چه چیزی واقعاً جدید است
بیایید در مورد اینکه چه چیزی قرض گرفته شده و چه چیزی نیست صادق باشیم.
قرض گرفته شده است: ستون فقرات ترانسفورماتور، ضربه زدن به حالت های پنهان در اعماق مختلف، Gumbel-Softmax برای مسیریابی گسسته، مفاهیم حافظه خارجی، پالایش تکراری.
جدید:
-
نقش های شناختی عملکردی – نه تخصص ضمنی از طریق آموزش (MoE)، بلکه مکانیسم های معماری که نحوه عملکرد توجه و پردازش را بر اساس انتساب نقش تغییر می دهد. توجه معکوس منتقد، طرح دافعه کاوشگر، بررسی دو طرفه تأیید کننده.
-
بررسی چند عمقی با تغییر نقش – مدلهای تکراری موجود (نشر، ALBERT) همان نمایش را دوباره پردازش میکنند. وزارت انرژی یک بار اختصاص می دهد. MDIR در سراسر تکرار با تغییر نقشها که از وضعیت بحث در حال تحول اطلاع داده میشود، بحث میکند.
-
مجلس استدلالی بر اختلاف نظر – هر روش مجموعه ای موجود جمع می شود. اسمبلر MDIR به گونه ای طراحی شده است که دلیل مخالفت مؤلفه ها چیست، نه فقط وزن دادن به خروجی های آنها.
-
حافظه کاری بحث محور – بردارهای ذخیره حافظه خارجی موجود. WM MDIR ورودیهای ساختاریافته را با دلایل (نقشههای توجه) و مخالفتهای صریح، که به صورت انتخابی بر اساس نقش خوانده میشوند، ذخیره میکند.
-
ضد همگرایی معماری – روش های تنوع موجود (دما، top-k، کاهش واگرایی JS) سطح را آشفته می کند. تنوع MDIR از نظر ساختاری از طرح دافعه کاوشگر و توجه معکوس منتقد پدیدار می شود.
موازی Grok 4.20
زمان قابل توجه است. Grok 4.20 که در همان هفته ای که MDIR را رسمی کردیم منتشر شد، از چهار عامل نامگذاری شده (کاپیتان، هارپر، بنجامین، لوکاس) استفاده می کند که قبل از اینکه کاپیتان ترکیب شود، بحث و بررسی می کنند.
هم ترازی فلسفی روشن است:
- هر دو معماری از نقش های شناختی تخصصی استفاده می کنند
- هر دو قبل از خروجی نهایی، بحث مشورتی را اجرا می کنند
- هر دو یک هماهنگ کننده / اسمبلر دارند که سنتز می کند
تفاوت کلیدی: Grok این کار را بین نمونه های مدل جداگانه انجام می دهد. MDIR پیشنهاد می کند که این کار را در یک مدل واحد انجام دهد.
اینها دو رویکرد اساساً متفاوت به یک شهود هستند:
- Grok 4.20 از عوامل مستقلی استفاده می کند که در فضای متن/توکن با هم ارتباط برقرار می کنند. هر نماینده یک مدل کامل است. هماهنگی در خارج اتفاق می افتد. این اثبات شده، عملی و در حال حاضر مستقر شده است.
- MDIR پیشنهاد می کند که بحث در فضای بازنمایی نهفته، در یک ستون فقرات مشترک اتفاق می افتد. RH ها سبک هستند و پارامترهای مشترکی دارند. بحث سرتاسر قابل تمایز و آموزش است.
هیچ یک از این دو رویکرد ذاتا برتر نیستند. ساخت سیستم چند عاملی Grok سادهتر است، مقیاسبندی آن آسانتر است و هر عامل میتواند بهطور مستقل بهروزرسانی شود. رویکرد درون مدلی MDIR اثبات نشده است – به طور بالقوه می تواند دستاوردهای کارایی و بحث های غنی تری را از طریق نمایندگی های مشترک ارائه دهد، اما با چالش های اجرایی سختی مواجه است که هنوز حل نشده اند.
این واقعیت که دو تلاش مستقل در مورد “نقش های تخصصی + مشورت + ترکیب” به هم نزدیک شدند، این جهت را نشان می دهد که ارزش بررسی دارد. این که آیا نوع درون مدلی به خوبی نوع چند عاملی کار می کند یا خیر، یک سوال تجربی باز است.
چیزی که نمی دانیم چگونه بسازیم (هنوز)
بخش صداقت اینها مشکلات حل نشده است:
1. آیا توجه معکوس زباله تولید می کند؟
مکانیسم منتقد بر روی مناطق کم اعتماد متمرکز است. اما مناطق کم اعتماد ممکن است به دلایل خوبی (ورودی مبهم، توکن های نامربوط) از اعتماد پایین برخوردار باشند. جلب توجه در آنجا می تواند به جای انتقاد مفید، سر و صدا ایجاد کند.
بهترین سرب: با استفاده از نقشه های اطمینان از سایر RH ها، نه وارونگی خام، توجه را راهنمایی کنید. روی مناطقی تمرکز کنید که اعتماد به نفس پایین است و اختلاف نظر زیاد است.
2. آیا کاوشگر می تواند انسجام را حفظ کند؟
فرافکنی در زیرفضای متعامد بازنمایی ستون فقرات، کاوش را وادار می کند – اما فضای فرعی متعامد ممکن است حاوی زبان منسجم نباشد. Explorer می تواند به یک تولید کننده توکن تصادفی تبدیل شود.
بهترین سرب: فرافکنی دافعه را با محدودیت انسجام آموخته است. Explorer از ستون فقرات فاصله می گیرد اما همچنان به دلیل عدم انسجام جریمه می شود.
3. آیا اسمبلی Reasoned قابل یادگیری است؟
استدلال در مورد اختلاف نظر بین نمایش های برداری سخت است. اسمبلر ممکن است در طول تمرین به میانگین وزنی سقوط کند زیرا این حداقل سادهتر است.
بهترین سرب: آموزش برنامه درسی با مثال های ترکیبی «اقلیت صحیح است». Assembler را آموزش دهید که گاهی اوقات وقتی اقلیت شواهد بهتری دارد، با استفاده از موارد ساخته شده که اکثریت اشتباه می کنند، دنبال کند.
4. آیا نقش ها در طول آموزش فرو می ریزند؟
از دست دادن متقابل آنتروپی انتها به انتها ممکن است همه RH ها را به سمت بهینه یکسان سوق دهد و نقش ها را زیبا کند.
بهترین سرب: برنامه درسی مبتنی بر مرحله. ابتدا Lead را آموزش دهید (مدل سازی زبان استاندارد). سپس لید را منجمد کنید و منتقد را به صورت خصمانه آموزش دهید (برای یافتن خطاهای لید پاداش دریافت می کنید). سپس Explorer را اضافه کنید. سپس Verifier. سپس آنها را با هم آموزش دهید.
5. چگونه ارزیابی کنیم؟
معیارهای استاندارد (MMLU، HumanEval) دقت تک پاسخ را اندازه گیری می کنند. آنها اندازهگیری نمیکنند که آیا مدل جایگزینها را در نظر گرفته، اشتباهات خود را شناسایی کرده یا در مورد اختلاف نظر استدلال کرده است.
سوال باز: ما به معیارهایی برای تنوع استدلال، خود اصلاحی و کیفیت مشورت نیاز داریم.
کجا این می رود
MDIR یک طراحی است، نه یک محصول. ما یک نمونه اولیه v1 ساختهایم که اسکلت را پیادهسازی میکند (ستون ستون فقرات + ضربهها + RHs + روتر + اسمبلر + حلقه آموزشی) اما با اجزای استاندارد در هر سطح – «روح» معماری (نقشهای عملکردی، بحثهای ساختاریافته، مونتاژ منطقی) باید پیادهسازی شود.
مسیر پیش رو تکراری است:
- آموزش نقش حل (رویکرد برنامه درسی)
- توجه معکوس منتقد را اجرا و آزمایش کنید
- طرح دافعه کاوشگر را اجرا و آزمایش کنید
- حافظه کاری ساخت یافته را بسازید
- اسمبلر استدلال را طراحی و آموزش دهید
هر مرحله به طور مستقل قابل آزمایش است. هر مرحله یک قابلیت قابل اندازه گیری اضافه می کند. و هر مرحله ما را به پاسخ به سوال اصلی نزدیکتر می کند: آیا یک مدل واحد واقعاً می تواند در مورد پاسخ های بهتر بحث کند؟
اگر پاسخ مثبت است – حتی تا حدی – نشان دهنده یک تغییر اساسی در نحوه تفکر ما در مورد معماری LLM است. نه مدلهای بزرگتر، نه دادههای بیشتر، نه زنجیرههای فکری طولانیتر. اما مشورت داخلی غنی تر.
معماری که قبل از حرف زدن فکر می کند.
MDIR یک معماری تحقیقاتی مستقل است که در حال حاضر در مرحله طراحی است. ما از بحث و همکاری استقبال می کنیم.



