Qwen 3: جهش علی بابا در هوش مصنوعی منبع باز

ek3nk4r 2025-05-01

0 3 خواندن این مطلب 5 دقیقه زمان میبرد

Qwen 3: جهش علی بابا در هوش مصنوعی منبع باز

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

تیم Qwen Alibaba از QWEN 3 رونمایی کرده است ، آخرین تکرار سری بزرگ مدل های زبان خود ، که در 29 آوریل 2025 منتشر شد. این مجموعه منبع باز ، مجوز تحت Apache 2.0 ، پیشرفت قابل توجهی در دسترسی و عملکرد AI نشان می دهد ، به چالش کشیدن غول های صنعت مانند Openai و Deepseek. QWEN 3 با طیف وسیعی از مدل ها از 0.6 میلیارد تا 235 میلیارد پارامتر ، انعطاف پذیری را برای توسعه دهندگان ، محققان و مشاغل ارائه می دهد. در اینجا یک شیرجه عمیق به آنچه باعث می شود Qwen 3 به یک تغییر دهنده بازی تبدیل شود.

فهرست مطالب

یک مجموعه مدل متنوع

Qwen 3 شامل هشت مدل است: شش مدل متراکم (پارامترهای 0.6b ، 1.7b ، 4b ، 8b ، 14b و 32b) و دو مدل مخلوط کننده (MOE) (QWEN3-30B-A3B و QWEN3-235B-A22B). مدل های MOE تنها بخشی از پارامترهای خود را در هر نشانه – 3 میلیارد برای مدل 30B و 22 میلیارد برای مدل 235B فعال می کنند – در حالی که عملکرد بالا را حفظ می کنند ، آنها را از نظر محاسباتی کارآمد می کند. این مقیاس پذیری تضمین می کند که QWEN 3 متناسب با موارد مختلف استفاده ، از اجرای لپ تاپ های سطح بالا گرفته تا برنامه های کاربردی درجه یک شرکت.

پرچمدار QWEN3-235B-A22B با مدل های برتر مانند Deepseek-R1 ، Openai's O1 و Gemini-2.5-Pro Google در معیارهای برنامه نویسی ، ریاضی و قابلیت های عمومی رقابت می کند. حتی QWEN3-4B جمع و جور عملکرد مدرک QWEN2.5-72B بسیار بزرگتر را نشان می دهد و پیشرفت های قابل توجهی را نشان می دهد.

استدلال ترکیبی: تفکر در مورد تقاضا

ویژگی برجسته Qwen 3 قابلیت استدلال ترکیبی آن است که امکان تعویض یکپارچه را فراهم می کند حالت تفکر (برای کارهای پیچیده مانند استدلال منطقی ، ریاضی و برنامه نویسی) و حالت غیر تفکر (برای گفتگوی سریعتر و عمومی). کاربران می توانند این کار را از طریق یک ساده تغییر دهند /think یا /no_think سریع یا با تنظیم enable_thinking=True در API در حالت تفکر ، مدل مراحل استدلال میانی را در داخل ایجاد می کند ... بلوک ها ، افزایش شفافیت و دقت. این انعطاف پذیری به کاربران امکان می دهد تا سرعت یا عمق را بهینه کنند ، ویژگی ای که QWEN 3 را از رقبایی مانند مدل های متراکم OpenAi جدا می کند ، که همه پارامترها را برای هر کار درگیر می کند.

آموزش و داده: یک بنیاد قوی

Qwen 3 در مجموعه داده های عظیم 36 تریلیون توکن در 119 زبان و گویش آموزش داده شد و از کارهای چند زبانه مانند ترجمه و پاسخ به سؤال پشتیبانی می کرد. فرایند پیش بینی شامل سه مرحله است:

مرحله 1: پیشگیری در 30 تریلیون توکن با طول زمینه 4K-Token برای ایجاد مهارت های زبان بنیادی.
مرحله 2: اضافه کردن 5 تریلیون نشانه داده های فشرده دانش (ساقه ، کدگذاری ، استدلال) برای تقویت قابلیت های تخصصی.
مرحله 3: شامل داده های با کیفیت بالا و با کیفیت طولانی برای گسترش پنجره زمینه به 32K نشانه ها (حداکثر 131k با نخ برای مدل های 4B و بالاتر).

پس از آموزش شامل تنظیم دقیق نظارت (SFT) و یادگیری تقویت (RL) برای تقویت استدلال و پیروی از آموزش است. برای مدلهای کوچکتر ، یک روش “تقطیر قوی به مرطوب” از داده های مصنوعی از مدلهای بزرگتر استفاده می کند ، و عملکرد معیار را با پارامترهای کمتری تضمین می کند.

عملکرد معیار

Qwen 3 در معیارهای مختلف می درخشد:

QWEN3-23B-A22B: Overforms Openai's O3-Mini در Aime (Math) و BFCL (استدلال) و Edges Gemini 2.5-PRO در CodeForces (برنامه نویسی).
qwen3-32b: از O1 Openai در LiveCodebench پیشی می گیرد و با R1 Deepseek رقابت می کند و آن را به یک انتخاب قوی برای توسعه دهندگان تبدیل می کند.
qwen3-4b: مطابق با QWEN2.5-72B-Instruct ، نشان می دهد که مدل های کوچکتر می توانند با آموزش بهینه شده به عملکرد بالایی برسند.

این نتایج توانایی QWEN 3 را در ارائه عملکرد سطح بالا با منابع محاسباتی کمتری برجسته می کند ، گرایش به “تراکم دانش” که در آن مدل های کوچکتر پیشینیان بزرگتر را رقیب می کنند.

استقرار و دسترسی

QWEN 3 برای ادغام آسان طراحی شده است:

چارچوبها: از SGLANG یا VLLM (> = 0.8.4) برای نقاط پایانی API سازگار با OpenAI یا ابزاری مانند Ollama ، Lmstudio و Llama.cpp برای استقرار محلی استفاده کنید. به عنوان مثال ، اجرا کنید ollama run qwen3:30b-a3b برای شروع
سکو: در بغل کردن صورت ، Modelcope و Kaggle ، با نسخه های پایه و آموزش برای انعطاف پذیری موجود است.
راندمان هزینه: مدل های MOE ، مانند QWEN3-235B-A22B ، در GPU های 4XH100 متناسب هستند و حدود یک چهارم از Deepseek-R1 در تولید هزینه دارند و آنها را برای مشاغل جذاب می کند.

مجوز Apache 2.0 امکان استفاده ، اصلاح و توزیع تجاری را فراهم می کند و همکاری بین توسعه دهندگان و محققان را تقویت می کند.

چرا Qwen 3 مهم است

Qwen 3 موقعیت علی بابا را در مسابقه جهانی هوش مصنوعی تقویت می کند و یک جایگزین منبع باز برای مدل های اختصاصی از Openai و Anthropic ارائه می دهد. کارآیی ، پشتیبانی چند زبانه و استدلال ترکیبی آن را برای کاربردهای متنوع ، از ابزارهای آموزشی گرفته تا اتوماسیون سازمانی ایده آل می کند. با انتشار وزن مدل و کد منبع ، Alibaba نوآوری را تشویق می کند ، تنظیم دقیق و استقرار سفارشی را فراهم می کند.

در مقایسه با مدل های MOE Deepseek ، Qwen 3 تطبیق پذیری بیشتری و دامنه مدل وسیع تری ارائه می دهد. در حالی که Deepseek-V3 37 میلیارد 671 میلیارد پارامتر را فعال می کند ، 22 میلیارد پارامتر فعال QWEN3-235B-A22B عملکرد قابل مقایسه را با مقیاس پذیری بهتر ارائه می دهد. در برابر مدل های GPT OpenAi ، معماری MOE Qwen 3 تقاضای محاسباتی را کاهش می دهد و AI AI را در دسترس تر می کند.

شروع

برای کشف Qwen 3:

برای آزمایش مدل ها به Qwen Chat یا برنامه QWEN مراجعه کنید.
مدل ها را از بغل کردن Face یا ModelScope بارگیری کنید.
برای مستندات و آموزش های Qwen GitHub را بررسی کنید.
برای پشتیبانی و به روزرسانی به انجمن Discord بپیوندید.

برای توسعه دهندگان ، ادغام QWEN 3 با ابزارهایی مانند APIDOG گردش کار API را ساده می کند ، در حالی که چارچوب هایی مانند Axolotl از تنظیم دقیق پشتیبانی می کنند.

آینده Qwen

Qwen 3 بر موفقیت Qwen2.5 ، که بیش از 40 میلیون بار بارگیری کرده است ، ایجاد می کند و تعهد علی بابا را به منبع باز هوش مصنوعی ادامه می دهد. تکرارهای آینده ممکن است قابلیت های چند مدلی را گسترش دهد (به عنوان مثال ، دید و صدا ، همانطور که در Qwen-VL و Qwen-Audio مشاهده می شود) و عملکرد بیشتر را بهینه می کند. با تشدید رقابت هوش مصنوعی ، ترکیب قدرت ، کارآیی و دسترسی Qwen 3 آن را به عنوان یک رهبر در منظره منبع باز قرار می دهد.

این که آیا شما یک برنامه توسعه دهنده در حال ساخت برنامه های AI-محور هستید ، یک محقق که مرزهای استدلال را تحت فشار قرار می دهد یا یک تجارت که به دنبال راه حل های مقرون به صرفه است ، Qwen 3 ابزاری را برای نوآوری ارائه می دهد. امروز آن را امتحان کنید و به جامعه جهانی که شکل آینده هوش مصنوعی را شکل می دهد بپیوندید.

آیا Qwen 3 را امتحان کرده اید؟ افکار خود را در نظرات به اشتراک بگذارید یا به Qwen Discord بپیوندید تا با سایر کاربران ارتباط برقرار کنید!