تحقیق: MiniMax M2.1 (انقلاب “خطی”)

خلاصه مختصر MiniMax M2.1 (200 کلمه فارسی)
راهاندازی MiniMax M2.1 یک تحول در معماری مدلهای زبان بزرگ (LLM) است که از محدودیت تئوری «دیوار دوم» (پیچیدگی محاسباتی O(N^2)) در ترانسفورمراتورهای سنتی عبور میکند. این مدل با تمرکز بر وظایف پیچیده دنیای واقعی مانند برنامهنویسی چندزبانه طراحی شده است.
مشکل کلیدی: مدلهای قبلی (مانند GPT-4) به دلیل مکانیزم توجه نرماکس (Self-Attention)، با پیچیدگی محاسباتی O(N^2) (که N طول دنباله است) مواجه بودند. این مانع، مقیاسپذیری پنجرههای زمینه و استدلال عاملی بلادرنگ را محدود میکرد.
راهحل نوین: MiniMax M2.1 با معرفی توجه صاعقه (Lightning Attention)، پیچیدگی محاسباتی را از O(N^2d) به O(Nd^2) کاهش میدهد. این طریق استفاده از خواص انجمنی ضرب ماتریس (Q(K^T)V بهجای (QK^T)V) امکان پردازش خطی را فراهم میکند. برای جلوگیری از از دست دادن اطلاعات، معماری ترکیبی به کار میبرد: در هر ۸ لایه، ۷ لایه توجه خطی و ۱ لایه توجه نرماکس سنتی (نقاط لنگر).
ویژگیهای برجسته:
- پنجره متن اصلی ۴ میلیون توکن (۲۰ تا ۳۲ برابر بیشتر از رقبا).
- معماری ترکیبی کارشناسان (MOE) با ۴۵۶ میلیارد پارامتر (فقط ۴۵.۹ میلیارد پارامتر فعال در هر توکن).
- سرعت استنتاج بالا بهدوره تکنیکهای آموزشی پیشرفته (مثل تانسور موازی خبره و موازیسازیAttention).
- قیمتگذاری رقابتی: تنها ۰.۲۰ دلار به ازای هر ۱ میلیون توکن (حدود ۱۰ برابر ارزانتر از GPT-4o).
پارادایم اقتصادی «قاتل RAG»: MiniMax با هزینه کم، امکان پردازش یکپارچۀ کل مجموعهدادهها (۱۰۰ کتاب یا یک مخزن کامل) را فراهم میکند. این، نیاز به پایگاههای برداری (Vector DB) و پipelineهای پیچیده را برای ۹۹٪ استارتاپها حذف و تمرکز را از «جستجو» به «استدلال در بستر کامل» تغییر میدهد.
توضیح قیاسی: توجه سنتی مانند «خواندن مجدد هر صفحه قبلی» هنگام خواندن صفحه جدید است، در حالی که توجه خطی مانند «اسکن سریع با حفظ خلاصه تغییرناپذیر» است.
راه اندازی از MiniMax M2.1 نشاندهنده یک تغییر اساسی در معماری مدل زبان بزرگ (LLM) است که از محدودیتهای مقیاسبندی که تقریباً یک دهه است که عصر ترانسفورماتور را تعریف کرده است، فاصله میگیرد. در حالی که مدلهای سنتی به «دیوار درجه دوم» برخورد کردهاند، MiniMax M2.1 یک را معرفی میکند مدل سازی خطی-پیچیدگی رویکردی که امکان ایجاد پنجرههای زمینه عظیم را بدون انفجار متناسب در هزینههای محاسباتی فراهم میکند. این تکامل توسط یکپارچه سازی هدایت می شود توجه صاعقه و با ظرفیت بالا ترکیبی از کارشناسان (MOE) معماری، به طور خاص برای انجام وظایف پیچیده دنیای واقعی مانند برنامه نویسی چند زبانه و گردش کار عاملی طراحی شده است.
مشکل: دیوار درجه دوم $O(N^2)$
گلوگاه اصلی در ترانسفورماتورهای استاندارد، مانند GPT-4 و Llama 3، این است مکانیسم خودتوجهی سافت مکس. در این مدلها، هر توکن باید به هر توکن دیگری توجه کند، که در نتیجه پیچیدگی محاسباتی ایجاد میشود $O(N^2)$، که در آن $N$ طول دنباله است. این به این معنی است که دو برابر کردن پنجره زمینه به چهار برابر منابع محاسباتی نیاز دارد، زمینه های بسیار طولانی (بیش از 128000 توکن) را برای اکثر برنامه ها بسیار گران و کند می کند. این رابطه درجه دوم به طور موثر به عنوان سقفی برای گسترش زمینه و استدلال عاملی بلادرنگ عمل کرده است.
The Core Tech: Lightning Attention (توجه خطی)
MiniMax M2.1 با استفاده از این سقف می شکند توجه صاعقه، اجرای بهینه توجه خطی. با استفاده از خاصیت انجمنی ضرب ماتریستوجه خطی، محاسبه استاندارد $(QK^T)V$ را مجدداً به $Q(K^TV)$ پیکربندی می کند، که پیچیدگی محاسباتی و حافظه را از $O(N^2d)$ به $O(N^2d)$ کاهش می دهد. $O(Nd^2)$.
با این حال، مدل های خطی خالص اغلب با بازیابی اطلاعات و “تجزیه حافظه” دست و پنجه نرم می کنند. برای حل این مشکل، MiniMax از a معماری ترکیبی: در هر 8 لایه، 7 لایه از Lightning Attention استفاده می کند برای مقیاس بندی خطی، در حالی که 1 لایه توجه سنتی Softmax را به کار می گیرد. این لایههای Softmax به عنوان نقاط لنگر عمل میکنند و بازیابی با وفاداری بالا را تضمین میکنند و وابستگیهای جهانی را بدون از دست دادن دقت معمولی موجود در مدلهای خطی خالص حفظ میکنند.
مشخصات: یک نیروگاه 4 میلیون توکن
MiniMax M2.1 برای عملکرد عالی در مجموعه داده های عظیم مهندسی شده است:
- پنجره زمینه: از a پشتیبانی می کند پنجره متن اصلی 4 میلیون توکن، که 20 تا 32 برابر بیشتر از مدل های اختصاصی مرزی است.
- معماری: از پراکنده استفاده می کند ترکیبی از کارشناسان (MOE) چارچوب با 456 میلیارد کل پارامتر.
- کارایی: با وجود اندازه اش، فقط 45.9 میلیارد پارامتر در هر توکن فعال می شود، به آن اجازه می دهد تا سرعت استنتاج و توان عملیاتی بالایی را در مقایسه با مدل های بسیار کوچکتر حفظ کند.
- نوآوری آموزشی: مدل اهرم می کند تانسور موازی خبره (ETP) و یک نسخه بهبود یافته از موازی توالی توجه خطی (LASP+) برای دستیابی به 75٪ استفاده از GPU، به طور قابل توجهی بالاتر از میانگین صنعت 50٪.
مفهوم اقتصادی: “قاتل RAG”
مخل ترین جنبه M2.1 مدل قیمت گذاری آن است. در 0.20 دلار به ازای هر 1 میلیون توکن ورودی، MiniMax تقریبا است 10 برابر ارزان تر از GPT-4o (2.50 دلار) و به طور قابل توجهی مقرون به صرفه تر از غزل کلود 3.5 (3.00 دلار).
این یک جدید ایجاد می کند پارادایم “قاتل RAG”.:
- مقیاس: اکنون می توانید تغذیه کنید 100 کتاب یا یک مخزن کامل نرم افزار در یک درخواست تقریباً 1 دلار.
- دقت: بر خلاف Retrieval-Augmented Generation (RAG) که از فشرده سازی با اتلاف از طریق قطعه کردن و جاسازی استفاده می کند، M2.1 پردازش می کند. کل مجموعه داده به صورت بومی، حفظ روابط پیچیده بین نقاط داده دور که RAG اغلب آنها را از دست می دهد.
- سادگی: برای 99 درصد استارت آپ هایی که مجموعه داده های آنها زیر 4 میلیون توکن است، نیاز به یک پایگاه داده برداری و خطوط لوله نمایه سازی پیچیده به طور موثر حذف می شود. تمرکز مهندسی از “چگونه جستجو” به “چگونه استدلال” در زمینه کامل تغییر می کند.
قیاس برای درک:
توجه سنتی Softmax مانند است «گذر از کتاب» با خواندن مجدد هر صفحه قبلی هر بار که به صفحه جدید مراجعه می کنید تا مطمئن شوید که چیزی را از دست نداده اید. توجه خطی مانند است “اسکن”– مدل در حین حرکت در متن یک خلاصه ثابت (حالت پنهان) را حفظ می کند و به آن اجازه می دهد میلیون ها صفحه را با سرعت ثابت و سریع پردازش کند.



