برنامه نویسی

Qwen 3: جهش علی بابا در هوش مصنوعی منبع باز

تیم Qwen Alibaba از QWEN 3 رونمایی کرده است ، آخرین تکرار سری بزرگ مدل های زبان خود ، که در 29 آوریل 2025 منتشر شد. این مجموعه منبع باز ، مجوز تحت Apache 2.0 ، پیشرفت قابل توجهی در دسترسی و عملکرد AI نشان می دهد ، به چالش کشیدن غول های صنعت مانند Openai و Deepseek. QWEN 3 با طیف وسیعی از مدل ها از 0.6 میلیارد تا 235 میلیارد پارامتر ، انعطاف پذیری را برای توسعه دهندگان ، محققان و مشاغل ارائه می دهد. در اینجا یک شیرجه عمیق به آنچه باعث می شود Qwen 3 به یک تغییر دهنده بازی تبدیل شود.

یک مجموعه مدل متنوع

Qwen 3 شامل هشت مدل است: شش مدل متراکم (پارامترهای 0.6b ، 1.7b ، 4b ، 8b ، 14b و 32b) و دو مدل مخلوط کننده (MOE) (QWEN3-30B-A3B و QWEN3-235B-A22B). مدل های MOE تنها بخشی از پارامترهای خود را در هر نشانه – 3 میلیارد برای مدل 30B و 22 میلیارد برای مدل 235B فعال می کنند – در حالی که عملکرد بالا را حفظ می کنند ، آنها را از نظر محاسباتی کارآمد می کند. این مقیاس پذیری تضمین می کند که QWEN 3 متناسب با موارد مختلف استفاده ، از اجرای لپ تاپ های سطح بالا گرفته تا برنامه های کاربردی درجه یک شرکت.

پرچمدار QWEN3-235B-A22B با مدل های برتر مانند Deepseek-R1 ، Openai's O1 و Gemini-2.5-Pro ​​Google در معیارهای برنامه نویسی ، ریاضی و قابلیت های عمومی رقابت می کند. حتی QWEN3-4B جمع و جور عملکرد مدرک QWEN2.5-72B بسیار بزرگتر را نشان می دهد و پیشرفت های قابل توجهی را نشان می دهد.

استدلال ترکیبی: تفکر در مورد تقاضا

ویژگی برجسته Qwen 3 قابلیت استدلال ترکیبی آن است که امکان تعویض یکپارچه را فراهم می کند حالت تفکر (برای کارهای پیچیده مانند استدلال منطقی ، ریاضی و برنامه نویسی) و حالت غیر تفکر (برای گفتگوی سریعتر و عمومی). کاربران می توانند این کار را از طریق یک ساده تغییر دهند /think یا /no_think سریع یا با تنظیم enable_thinking=True در API در حالت تفکر ، مدل مراحل استدلال میانی را در داخل ایجاد می کند ... بلوک ها ، افزایش شفافیت و دقت. این انعطاف پذیری به کاربران امکان می دهد تا سرعت یا عمق را بهینه کنند ، ویژگی ای که QWEN 3 را از رقبایی مانند مدل های متراکم OpenAi جدا می کند ، که همه پارامترها را برای هر کار درگیر می کند.

آموزش و داده: یک بنیاد قوی

Qwen 3 در مجموعه داده های عظیم 36 تریلیون توکن در 119 زبان و گویش آموزش داده شد و از کارهای چند زبانه مانند ترجمه و پاسخ به سؤال پشتیبانی می کرد. فرایند پیش بینی شامل سه مرحله است:

  1. مرحله 1: پیشگیری در 30 تریلیون توکن با طول زمینه 4K-Token برای ایجاد مهارت های زبان بنیادی.
  2. مرحله 2: اضافه کردن 5 تریلیون نشانه داده های فشرده دانش (ساقه ، کدگذاری ، استدلال) برای تقویت قابلیت های تخصصی.
  3. مرحله 3: شامل داده های با کیفیت بالا و با کیفیت طولانی برای گسترش پنجره زمینه به 32K نشانه ها (حداکثر 131k با نخ برای مدل های 4B و بالاتر).

پس از آموزش شامل تنظیم دقیق نظارت (SFT) و یادگیری تقویت (RL) برای تقویت استدلال و پیروی از آموزش است. برای مدلهای کوچکتر ، یک روش “تقطیر قوی به مرطوب” از داده های مصنوعی از مدلهای بزرگتر استفاده می کند ، و عملکرد معیار را با پارامترهای کمتری تضمین می کند.

عملکرد معیار

Qwen 3 در معیارهای مختلف می درخشد:

  • QWEN3-23B-A22B: Overforms Openai's O3-Mini در Aime (Math) و BFCL (استدلال) و Edges Gemini 2.5-PRO در CodeForces (برنامه نویسی).
  • qwen3-32b: از O1 Openai در LiveCodebench پیشی می گیرد و با R1 Deepseek رقابت می کند و آن را به یک انتخاب قوی برای توسعه دهندگان تبدیل می کند.
  • qwen3-4b: مطابق با QWEN2.5-72B-Instruct ، نشان می دهد که مدل های کوچکتر می توانند با آموزش بهینه شده به عملکرد بالایی برسند.

این نتایج توانایی QWEN 3 را در ارائه عملکرد سطح بالا با منابع محاسباتی کمتری برجسته می کند ، گرایش به “تراکم دانش” که در آن مدل های کوچکتر پیشینیان بزرگتر را رقیب می کنند.

استقرار و دسترسی

QWEN 3 برای ادغام آسان طراحی شده است:

  • چارچوبها: از SGLANG یا VLLM (> = 0.8.4) برای نقاط پایانی API سازگار با OpenAI یا ابزاری مانند Ollama ، Lmstudio و Llama.cpp برای استقرار محلی استفاده کنید. به عنوان مثال ، اجرا کنید ollama run qwen3:30b-a3b برای شروع
  • سکو: در بغل کردن صورت ، Modelcope و Kaggle ، با نسخه های پایه و آموزش برای انعطاف پذیری موجود است.
  • راندمان هزینه: مدل های MOE ، مانند QWEN3-235B-A22B ، در GPU های 4XH100 متناسب هستند و حدود یک چهارم از Deepseek-R1 در تولید هزینه دارند و آنها را برای مشاغل جذاب می کند.

مجوز Apache 2.0 امکان استفاده ، اصلاح و توزیع تجاری را فراهم می کند و همکاری بین توسعه دهندگان و محققان را تقویت می کند.

چرا Qwen 3 مهم است

Qwen 3 موقعیت علی بابا را در مسابقه جهانی هوش مصنوعی تقویت می کند و یک جایگزین منبع باز برای مدل های اختصاصی از Openai و Anthropic ارائه می دهد. کارآیی ، پشتیبانی چند زبانه و استدلال ترکیبی آن را برای کاربردهای متنوع ، از ابزارهای آموزشی گرفته تا اتوماسیون سازمانی ایده آل می کند. با انتشار وزن مدل و کد منبع ، Alibaba نوآوری را تشویق می کند ، تنظیم دقیق و استقرار سفارشی را فراهم می کند.

در مقایسه با مدل های MOE Deepseek ، Qwen 3 تطبیق پذیری بیشتری و دامنه مدل وسیع تری ارائه می دهد. در حالی که Deepseek-V3 37 میلیارد 671 میلیارد پارامتر را فعال می کند ، 22 میلیارد پارامتر فعال QWEN3-235B-A22B عملکرد قابل مقایسه را با مقیاس پذیری بهتر ارائه می دهد. در برابر مدل های GPT OpenAi ، معماری MOE Qwen 3 تقاضای محاسباتی را کاهش می دهد و AI AI را در دسترس تر می کند.

شروع

برای کشف Qwen 3:

  1. برای آزمایش مدل ها به Qwen Chat یا برنامه QWEN مراجعه کنید.
  2. مدل ها را از بغل کردن Face یا ModelScope بارگیری کنید.
  3. برای مستندات و آموزش های Qwen GitHub را بررسی کنید.
  4. برای پشتیبانی و به روزرسانی به انجمن Discord بپیوندید.

برای توسعه دهندگان ، ادغام QWEN 3 با ابزارهایی مانند APIDOG گردش کار API را ساده می کند ، در حالی که چارچوب هایی مانند Axolotl از تنظیم دقیق پشتیبانی می کنند.

آینده Qwen

Qwen 3 بر موفقیت Qwen2.5 ، که بیش از 40 میلیون بار بارگیری کرده است ، ایجاد می کند و تعهد علی بابا را به منبع باز هوش مصنوعی ادامه می دهد. تکرارهای آینده ممکن است قابلیت های چند مدلی را گسترش دهد (به عنوان مثال ، دید و صدا ، همانطور که در Qwen-VL و Qwen-Audio مشاهده می شود) و عملکرد بیشتر را بهینه می کند. با تشدید رقابت هوش مصنوعی ، ترکیب قدرت ، کارآیی و دسترسی Qwen 3 آن را به عنوان یک رهبر در منظره منبع باز قرار می دهد.

این که آیا شما یک برنامه توسعه دهنده در حال ساخت برنامه های AI-محور هستید ، یک محقق که مرزهای استدلال را تحت فشار قرار می دهد یا یک تجارت که به دنبال راه حل های مقرون به صرفه است ، Qwen 3 ابزاری را برای نوآوری ارائه می دهد. امروز آن را امتحان کنید و به جامعه جهانی که شکل آینده هوش مصنوعی را شکل می دهد بپیوندید.


آیا Qwen 3 را امتحان کرده اید؟ افکار خود را در نظرات به اشتراک بگذارید یا به Qwen Discord بپیوندید تا با سایر کاربران ارتباط برقرار کنید!

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا