Qwen 3: جهش علی بابا در هوش مصنوعی منبع باز

تیم Qwen Alibaba از QWEN 3 رونمایی کرده است ، آخرین تکرار سری بزرگ مدل های زبان خود ، که در 29 آوریل 2025 منتشر شد. این مجموعه منبع باز ، مجوز تحت Apache 2.0 ، پیشرفت قابل توجهی در دسترسی و عملکرد AI نشان می دهد ، به چالش کشیدن غول های صنعت مانند Openai و Deepseek. QWEN 3 با طیف وسیعی از مدل ها از 0.6 میلیارد تا 235 میلیارد پارامتر ، انعطاف پذیری را برای توسعه دهندگان ، محققان و مشاغل ارائه می دهد. در اینجا یک شیرجه عمیق به آنچه باعث می شود Qwen 3 به یک تغییر دهنده بازی تبدیل شود.
یک مجموعه مدل متنوع
Qwen 3 شامل هشت مدل است: شش مدل متراکم (پارامترهای 0.6b ، 1.7b ، 4b ، 8b ، 14b و 32b) و دو مدل مخلوط کننده (MOE) (QWEN3-30B-A3B و QWEN3-235B-A22B). مدل های MOE تنها بخشی از پارامترهای خود را در هر نشانه – 3 میلیارد برای مدل 30B و 22 میلیارد برای مدل 235B فعال می کنند – در حالی که عملکرد بالا را حفظ می کنند ، آنها را از نظر محاسباتی کارآمد می کند. این مقیاس پذیری تضمین می کند که QWEN 3 متناسب با موارد مختلف استفاده ، از اجرای لپ تاپ های سطح بالا گرفته تا برنامه های کاربردی درجه یک شرکت.
پرچمدار QWEN3-235B-A22B با مدل های برتر مانند Deepseek-R1 ، Openai's O1 و Gemini-2.5-Pro Google در معیارهای برنامه نویسی ، ریاضی و قابلیت های عمومی رقابت می کند. حتی QWEN3-4B جمع و جور عملکرد مدرک QWEN2.5-72B بسیار بزرگتر را نشان می دهد و پیشرفت های قابل توجهی را نشان می دهد.
استدلال ترکیبی: تفکر در مورد تقاضا
ویژگی برجسته Qwen 3 قابلیت استدلال ترکیبی آن است که امکان تعویض یکپارچه را فراهم می کند حالت تفکر (برای کارهای پیچیده مانند استدلال منطقی ، ریاضی و برنامه نویسی) و حالت غیر تفکر (برای گفتگوی سریعتر و عمومی). کاربران می توانند این کار را از طریق یک ساده تغییر دهند /think
یا /no_think
سریع یا با تنظیم enable_thinking=True
در API در حالت تفکر ، مدل مراحل استدلال میانی را در داخل ایجاد می کند
بلوک ها ، افزایش شفافیت و دقت. این انعطاف پذیری به کاربران امکان می دهد تا سرعت یا عمق را بهینه کنند ، ویژگی ای که QWEN 3 را از رقبایی مانند مدل های متراکم OpenAi جدا می کند ، که همه پارامترها را برای هر کار درگیر می کند.
آموزش و داده: یک بنیاد قوی
Qwen 3 در مجموعه داده های عظیم 36 تریلیون توکن در 119 زبان و گویش آموزش داده شد و از کارهای چند زبانه مانند ترجمه و پاسخ به سؤال پشتیبانی می کرد. فرایند پیش بینی شامل سه مرحله است:
- مرحله 1: پیشگیری در 30 تریلیون توکن با طول زمینه 4K-Token برای ایجاد مهارت های زبان بنیادی.
- مرحله 2: اضافه کردن 5 تریلیون نشانه داده های فشرده دانش (ساقه ، کدگذاری ، استدلال) برای تقویت قابلیت های تخصصی.
- مرحله 3: شامل داده های با کیفیت بالا و با کیفیت طولانی برای گسترش پنجره زمینه به 32K نشانه ها (حداکثر 131k با نخ برای مدل های 4B و بالاتر).
پس از آموزش شامل تنظیم دقیق نظارت (SFT) و یادگیری تقویت (RL) برای تقویت استدلال و پیروی از آموزش است. برای مدلهای کوچکتر ، یک روش “تقطیر قوی به مرطوب” از داده های مصنوعی از مدلهای بزرگتر استفاده می کند ، و عملکرد معیار را با پارامترهای کمتری تضمین می کند.
عملکرد معیار
Qwen 3 در معیارهای مختلف می درخشد:
- QWEN3-23B-A22B: Overforms Openai's O3-Mini در Aime (Math) و BFCL (استدلال) و Edges Gemini 2.5-PRO در CodeForces (برنامه نویسی).
- qwen3-32b: از O1 Openai در LiveCodebench پیشی می گیرد و با R1 Deepseek رقابت می کند و آن را به یک انتخاب قوی برای توسعه دهندگان تبدیل می کند.
- qwen3-4b: مطابق با QWEN2.5-72B-Instruct ، نشان می دهد که مدل های کوچکتر می توانند با آموزش بهینه شده به عملکرد بالایی برسند.
این نتایج توانایی QWEN 3 را در ارائه عملکرد سطح بالا با منابع محاسباتی کمتری برجسته می کند ، گرایش به “تراکم دانش” که در آن مدل های کوچکتر پیشینیان بزرگتر را رقیب می کنند.
استقرار و دسترسی
QWEN 3 برای ادغام آسان طراحی شده است:
-
چارچوبها: از SGLANG یا VLLM (> = 0.8.4) برای نقاط پایانی API سازگار با OpenAI یا ابزاری مانند Ollama ، Lmstudio و Llama.cpp برای استقرار محلی استفاده کنید. به عنوان مثال ، اجرا کنید
ollama run qwen3:30b-a3b
برای شروع - سکو: در بغل کردن صورت ، Modelcope و Kaggle ، با نسخه های پایه و آموزش برای انعطاف پذیری موجود است.
- راندمان هزینه: مدل های MOE ، مانند QWEN3-235B-A22B ، در GPU های 4XH100 متناسب هستند و حدود یک چهارم از Deepseek-R1 در تولید هزینه دارند و آنها را برای مشاغل جذاب می کند.
مجوز Apache 2.0 امکان استفاده ، اصلاح و توزیع تجاری را فراهم می کند و همکاری بین توسعه دهندگان و محققان را تقویت می کند.
چرا Qwen 3 مهم است
Qwen 3 موقعیت علی بابا را در مسابقه جهانی هوش مصنوعی تقویت می کند و یک جایگزین منبع باز برای مدل های اختصاصی از Openai و Anthropic ارائه می دهد. کارآیی ، پشتیبانی چند زبانه و استدلال ترکیبی آن را برای کاربردهای متنوع ، از ابزارهای آموزشی گرفته تا اتوماسیون سازمانی ایده آل می کند. با انتشار وزن مدل و کد منبع ، Alibaba نوآوری را تشویق می کند ، تنظیم دقیق و استقرار سفارشی را فراهم می کند.
در مقایسه با مدل های MOE Deepseek ، Qwen 3 تطبیق پذیری بیشتری و دامنه مدل وسیع تری ارائه می دهد. در حالی که Deepseek-V3 37 میلیارد 671 میلیارد پارامتر را فعال می کند ، 22 میلیارد پارامتر فعال QWEN3-235B-A22B عملکرد قابل مقایسه را با مقیاس پذیری بهتر ارائه می دهد. در برابر مدل های GPT OpenAi ، معماری MOE Qwen 3 تقاضای محاسباتی را کاهش می دهد و AI AI را در دسترس تر می کند.
شروع
برای کشف Qwen 3:
- برای آزمایش مدل ها به Qwen Chat یا برنامه QWEN مراجعه کنید.
- مدل ها را از بغل کردن Face یا ModelScope بارگیری کنید.
- برای مستندات و آموزش های Qwen GitHub را بررسی کنید.
- برای پشتیبانی و به روزرسانی به انجمن Discord بپیوندید.
برای توسعه دهندگان ، ادغام QWEN 3 با ابزارهایی مانند APIDOG گردش کار API را ساده می کند ، در حالی که چارچوب هایی مانند Axolotl از تنظیم دقیق پشتیبانی می کنند.
آینده Qwen
Qwen 3 بر موفقیت Qwen2.5 ، که بیش از 40 میلیون بار بارگیری کرده است ، ایجاد می کند و تعهد علی بابا را به منبع باز هوش مصنوعی ادامه می دهد. تکرارهای آینده ممکن است قابلیت های چند مدلی را گسترش دهد (به عنوان مثال ، دید و صدا ، همانطور که در Qwen-VL و Qwen-Audio مشاهده می شود) و عملکرد بیشتر را بهینه می کند. با تشدید رقابت هوش مصنوعی ، ترکیب قدرت ، کارآیی و دسترسی Qwen 3 آن را به عنوان یک رهبر در منظره منبع باز قرار می دهد.
این که آیا شما یک برنامه توسعه دهنده در حال ساخت برنامه های AI-محور هستید ، یک محقق که مرزهای استدلال را تحت فشار قرار می دهد یا یک تجارت که به دنبال راه حل های مقرون به صرفه است ، Qwen 3 ابزاری را برای نوآوری ارائه می دهد. امروز آن را امتحان کنید و به جامعه جهانی که شکل آینده هوش مصنوعی را شکل می دهد بپیوندید.
آیا Qwen 3 را امتحان کرده اید؟ افکار خود را در نظرات به اشتراک بگذارید یا به Qwen Discord بپیوندید تا با سایر کاربران ارتباط برقرار کنید!