برنامه نویسی

تحقیق: MiniMax M2.1 (انقلاب “خطی”)

خلاصه مختصر MiniMax M2.1 (200 کلمه فارسی)

راه‌اندازی MiniMax M2.1 یک تحول در معماری مدل‌های زبان بزرگ (LLM) است که از محدودیت تئوری «دیوار دوم» (پیچیدگی محاسباتی O(N^2)) در ترانسفورمراتورهای سنتی عبور می‌کند. این مدل با تمرکز بر وظایف پیچیده دنیای واقعی مانند برنامه‌نویسی چندزبانه طراحی شده است.

مشکل کلیدی: مدل‌های قبلی (مانند GPT-4) به دلیل مکانیزم توجه نرم‌اکس (Self-Attention)، با پیچیدگی محاسباتی O(N^2) (که N طول دنباله است) مواجه بودند. این مانع، مقیاس‌پذیری پنجره‌های زمینه و استدلال عاملی بلادرنگ را محدود می‌کرد.

راه‌حل نوین: MiniMax M2.1 با معرفی توجه صاعقه (Lightning Attention)، پیچیدگی محاسباتی را از O(N^2d) به O(Nd^2) کاهش می‌دهد. این طریق استفاده از خواص انجمنی ضرب ماتریس (Q(K^T)V به‌جای (QK^T)V) امکان پردازش خطی را فراهم می‌کند. برای جلوگیری از از دست دادن اطلاعات، معماری ترکیبی به کار می‌برد: در هر ۸ لایه، ۷ لایه توجه خطی و ۱ لایه توجه نرم‌اکس سنتی (نقاط لنگر).

ویژگی‌های برجسته:

  • پنجره متن اصلی ۴ میلیون توکن (۲۰ تا ۳۲ برابر بیشتر از رقبا).
  • معماری ترکیبی کارشناسان (MOE) با ۴۵۶ میلیارد پارامتر (فقط ۴۵.۹ میلیارد پارامتر فعال در هر توکن).
  • سرعت استنتاج بالا به‌دوره تکنیک‌های آموزشی پیشرفته (مثل تانسور موازی خبره و موازی‌سازیAttention).
  • قیمت‌گذاری رقابتی: تنها ۰.۲۰ دلار به ازای هر ۱ میلیون توکن (حدود ۱۰ برابر ارزان‌تر از GPT-4o).

پارادایم اقتصادی «قاتل RAG»: MiniMax با هزینه کم، امکان پردازش یکپارچۀ کل مجموعه‌داده‌ها (۱۰۰ کتاب یا یک مخزن کامل) را فراهم می‌کند. این، نیاز به پایگاه‌های برداری (Vector DB) و پipeline‌های پیچیده را برای ۹۹٪ استارتاپ‌ها حذف و تمرکز را از «جستجو» به «استدلال در بستر کامل» تغییر می‌دهد.

توضیح قیاسی: توجه سنتی مانند «خواندن مجدد هر صفحه قبلی» هنگام خواندن صفحه جدید است، در حالی که توجه خطی مانند «اسکن سریع با حفظ خلاصه تغییرناپذیر» است.

راه اندازی از MiniMax M2.1 نشان‌دهنده یک تغییر اساسی در معماری مدل زبان بزرگ (LLM) است که از محدودیت‌های مقیاس‌بندی که تقریباً یک دهه است که عصر ترانسفورماتور را تعریف کرده است، فاصله می‌گیرد. در حالی که مدل‌های سنتی به «دیوار درجه دوم» برخورد کرده‌اند، MiniMax M2.1 یک را معرفی می‌کند مدل سازی خطی-پیچیدگی رویکردی که امکان ایجاد پنجره‌های زمینه عظیم را بدون انفجار متناسب در هزینه‌های محاسباتی فراهم می‌کند. این تکامل توسط یکپارچه سازی هدایت می شود توجه صاعقه و با ظرفیت بالا ترکیبی از کارشناسان (MOE) معماری، به طور خاص برای انجام وظایف پیچیده دنیای واقعی مانند برنامه نویسی چند زبانه و گردش کار عاملی طراحی شده است.

مشکل: دیوار درجه دوم $O(N^2)$

گلوگاه اصلی در ترانسفورماتورهای استاندارد، مانند GPT-4 و Llama 3، این است مکانیسم خودتوجهی سافت مکس. در این مدل‌ها، هر توکن باید به هر توکن دیگری توجه کند، که در نتیجه پیچیدگی محاسباتی ایجاد می‌شود $O(N^2)$، که در آن $N$ طول دنباله است. این به این معنی است که دو برابر کردن پنجره زمینه به چهار برابر منابع محاسباتی نیاز دارد، زمینه های بسیار طولانی (بیش از 128000 توکن) را برای اکثر برنامه ها بسیار گران و کند می کند. این رابطه درجه دوم به طور موثر به عنوان سقفی برای گسترش زمینه و استدلال عاملی بلادرنگ عمل کرده است.

The Core Tech: Lightning Attention (توجه خطی)

MiniMax M2.1 با استفاده از این سقف می شکند توجه صاعقه، اجرای بهینه توجه خطی. با استفاده از خاصیت انجمنی ضرب ماتریستوجه خطی، محاسبه استاندارد $(QK^T)V$ را مجدداً به $Q(K^TV)$ پیکربندی می کند، که پیچیدگی محاسباتی و حافظه را از $O(N^2d)$ به $O(N^2d)$ کاهش می دهد. $O(Nd^2)$.

با این حال، مدل های خطی خالص اغلب با بازیابی اطلاعات و “تجزیه حافظه” دست و پنجه نرم می کنند. برای حل این مشکل، MiniMax از a معماری ترکیبی: در هر 8 لایه، 7 لایه از Lightning Attention استفاده می کند برای مقیاس بندی خطی، در حالی که 1 لایه توجه سنتی Softmax را به کار می گیرد. این لایه‌های Softmax به عنوان نقاط لنگر عمل می‌کنند و بازیابی با وفاداری بالا را تضمین می‌کنند و وابستگی‌های جهانی را بدون از دست دادن دقت معمولی موجود در مدل‌های خطی خالص حفظ می‌کنند.

مشخصات: یک نیروگاه 4 میلیون توکن

MiniMax M2.1 برای عملکرد عالی در مجموعه داده های عظیم مهندسی شده است:

  • پنجره زمینه: از a پشتیبانی می کند پنجره متن اصلی 4 میلیون توکن، که 20 تا 32 برابر بیشتر از مدل های اختصاصی مرزی است.
  • معماری: از پراکنده استفاده می کند ترکیبی از کارشناسان (MOE) چارچوب با 456 میلیارد کل پارامتر.
  • کارایی: با وجود اندازه اش، فقط 45.9 میلیارد پارامتر در هر توکن فعال می شود، به آن اجازه می دهد تا سرعت استنتاج و توان عملیاتی بالایی را در مقایسه با مدل های بسیار کوچکتر حفظ کند.
  • نوآوری آموزشی: مدل اهرم می کند تانسور موازی خبره (ETP) و یک نسخه بهبود یافته از موازی توالی توجه خطی (LASP+) برای دستیابی به 75٪ استفاده از GPU، به طور قابل توجهی بالاتر از میانگین صنعت 50٪.

مفهوم اقتصادی: “قاتل RAG”

مخل ترین جنبه M2.1 مدل قیمت گذاری آن است. در 0.20 دلار به ازای هر 1 میلیون توکن ورودی، MiniMax تقریبا است 10 برابر ارزان تر از GPT-4o (2.50 دلار) و به طور قابل توجهی مقرون به صرفه تر از غزل کلود 3.5 (3.00 دلار).

این یک جدید ایجاد می کند پارادایم “قاتل RAG”.:

  1. مقیاس: اکنون می توانید تغذیه کنید 100 کتاب یا یک مخزن کامل نرم افزار در یک درخواست تقریباً 1 دلار.
  2. دقت: بر خلاف Retrieval-Augmented Generation (RAG) که از فشرده سازی با اتلاف از طریق قطعه کردن و جاسازی استفاده می کند، M2.1 پردازش می کند. کل مجموعه داده به صورت بومی، حفظ روابط پیچیده بین نقاط داده دور که RAG اغلب آنها را از دست می دهد.
  3. سادگی: برای 99 درصد استارت آپ هایی که مجموعه داده های آنها زیر 4 میلیون توکن است، نیاز به یک پایگاه داده برداری و خطوط لوله نمایه سازی پیچیده به طور موثر حذف می شود. تمرکز مهندسی از “چگونه جستجو” به “چگونه استدلال” در زمینه کامل تغییر می کند.

قیاس برای درک:
توجه سنتی Softmax مانند است «گذر از کتاب» با خواندن مجدد هر صفحه قبلی هر بار که به صفحه جدید مراجعه می کنید تا مطمئن شوید که چیزی را از دست نداده اید. توجه خطی مانند است “اسکن”– مدل در حین حرکت در متن یک خلاصه ثابت (حالت پنهان) را حفظ می کند و به آن اجازه می دهد میلیون ها صفحه را با سرعت ثابت و سریع پردازش کند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا