برنامه نویسی

Deepseek vs Chatgpt vs Perplexity vs Qwen vs Claude vs DeepMind ، عوامل هوش مصنوعی بیشتر و ابزارهای جدید AI

سلام علاقه مندان به AI!

به نسخه چهارم “خوش آمدیداین هفته در مهندسی هوش مصنوعی

از زمان رونق Deepseek ، همه شرکت های پیشرو در زمینه هوش مصنوعی مدلهای خود را به روز کرده و عوامل هوش مصنوعی خود را به سمت چپ ، راست و مرکز آزاد می کنند.

ما به همه این به روزرسانی ها به همراه برخی از ابزارهای لازم می دانیم تا نمایندگان و برنامه های AI را آسان تر کنیم.

سری Qwen: خانواده مدل منبع باز در عملکرد چند زبانه به نقاط عطف جدید می رسند

Qwen اکوسیستم مدل زبان منبع باز خود را گسترش داده است و چهار مدل از پارامترهای 1.8B تا 72B را معرفی کرده است و پیشرفت قابل توجهی در قابلیت های هوش مصنوعی چند زبانه دارد.

معماری فنی:

  • طراحی خانواده مدل: انواع متمایز از جمله Qwen-Chat ، Code-Qwen ، Math-Qwen-Chat ، Qwen-VL و Qwen-Audio-Chat با بهینه سازی هدفمند معرفی شده است

  • پردازش متن: پنجره زمینه توکن 32K گسترش یافته از طریق پیشگویی مداوم با بهینه سازی طناب اجرا می شود

  • ** مقیاس آموزش: ** پیش از این در 2-3 تریلیون توکن با بهینه سازی چند زبانه است

معیارهای عملکرد:

  • راندمان حافظه: استفاده از منابع بهینه شده از 5.8 گیگابایت (مدل 1.8B) تا 61.4 گیگابایت (مدل 72b)

  • رسیدگی به متن: تأیید شده از طریق “سوزن در یک یونجه” با دقت مداوم در زمینه های طولانی

  • بهینه سازی آموزش: اجرای SFT و RLHF پیشرفته با داده های مقایسه با کیفیت کنترل شده

ویژگی های توسعه:

  • بهینه سازی تراز: فرآیند SFT تصفیه شده با داده های آموزش متنوع و پیچیده (Instag و Tulu 2)

  • چارچوب نماینده: AgentFabric برای پیکربندی عامل AI سفارشی از طریق رابط چت

این سریال یک جهش قابل توجه در توسعه مدل زبان منبع باز ، به ویژه در قابلیت های چند زبانه و سناریوهای استقرار عملی ، ضمن حفظ استفاده از منابع کارآمد است.

Deepseek vs GPT-4 vs Qwen: معیارهای معماری پیشرفته و تجزیه و تحلیل عملکرد

آخرین ارزیابی های معیار نشان دهنده نبرد معماری قابل توجه بین اجرای کارآمد MOE QWEN 2.5-MAX ، مقیاس بندی پارامتر گسترده Deepseek-V3 و بهینه سازی معماری متراکم GPT-4 است. QWEN 2.5-MAX 64 شبکه تخصصی متخصص با فعال سازی پویا ، به 30 ٪ کاهش محاسباتی در حالی که عملکرد برتر را در معیارهای فنی حفظ می کند ، به دست می آورد.

ساختار برنامه:

  • Qwen 2.5-MAX: دارای مدل MOE پارامتر 72B ، نشانه های آموزش 20T ، پنجره زمینه 128K ، 64 شبکه متخصص

  • Deepseek-V3: پارامترهای پوسیدگی 671b (37B فعال در هر توکن) ، توکن آموزش 14.8t ، ساعت GPU 2.788 متر H800

  • GPT-4: با یک معماری متراکم ، و 192 زمینه توکن ، برای پردازش چند حالته بهینه شده است

جدول معیار مقایسه

Deepseek-V3 اندازه مدل عظیم را با فعال سازی پارامتر کارآمد افزایش می دهد ، در حالی که GPT-4 عملکرد رقابتی را از طریق بهینه سازی معماری متراکم حفظ می کند.

اپراتور OpenAI: پیشبرد اتوماسیون مرورگر با مدل عامل استفاده از رایانه

OpenAI اپراتور را معرفی کرده است ، یک عامل اتوماسیون مرورگر برش که از قابلیت های بینایی GPT-4O بهره می برد. پیش نمایش تحقیق ، مدل عامل استفاده از رایانه (CUA) را به نمایش می گذارد و معیارهای جدیدی را در تعامل خودکار وب و اجرای وظیفه تنظیم می کند.

معماری مدل

قابلیت های اصلی

  • تعامل مرورگر: پشتیبانی مستقیم از عناصر وب با استفاده از ورودی های شبیه سازی شده ماوس و صفحه کلید پشتیبانی می کند.

  • مدیریت کار: چندین گردش کار را به موازات موضوعات مکالمه جدا شده اجرا می کند.

  • پردازش بصری: در زمان واقعی با عناصر GUI تشخیص داده و در تعامل است.

OpenAi به طور فعال با Doordash ، Instacart و Uber برای استقرار اپراتور در برنامه های دنیای واقعی و در عین حال از استانداردهای امنیتی و حریم خصوصی دقیق همکاری می کند.

Google DeepMind's Evolution: استراتژی جستجو برای استنتاج LLM پیشرفته

Google DeepMind Mind Evolution را معرفی کرده است ، که در کارهای عملی به پیشرفت های چشمگیری رسیده است ، و فلش Gemini 1.5 را از 5.6 ٪ به 95.2 ٪ میزان موفقیت در معیارهای سفر برنامه ریزی می کند.

اجرای فنی:

  • تولید راه حل: LLM مبتنی بر ایجاد سریع جمعیت و سیستم گفتگوی منتقد-نویسنده برای ارزیابی راه حل.

  • محاسبه الزامات: ارائه 167 تماس API در مقابل تماس با تک پایه ، 3M توکن در مقابل 9K پایه

معیارهای عملکرد:

  • موفقیت سفر با برنامه ریزی: 95.2 ٪ برای Gemini 1.5 Flash ، 99.9 ٪ برای Gemini 1.5 Pro.

  • نتایج stegpoet: 43.3 ٪ در فلاش ، 79 ٪ در PRO برای کارهای پیچیده استگونوگرافی.

  • استفاده از توکن: 3 میلیون نشانه در هر راه حل جامع ، در مقایسه با 9000 پایه.

این سیستم پیشرفت های قابل توجهی در کارهای برنامه ریزی پیچیده بدون نیاز به حل کننده های رسمی نشان می دهد ، اگرچه با افزایش هزینه محاسباتی.

دستیار Perplexity: عامل AI چند مدلی برای اتوماسیون پیشرفته کار موبایل

Perplexity AI دستیار موبایل خود را راه اندازی کرده است و یک سیستم پیشرفته AI Multi-Modal را معرفی کرده است که تجزیه و تحلیل صفحه ، پردازش صدا و قابلیت های اتوماسیون متقاطع را ترک می کند.

قابلیت های فنی:

  • تجزیه و تحلیل بصری: 90 ٪ دقت در تفسیر محتوای صفحه نمایش

  • پردازش ورودی: پشتیبانی چند مودال (صدا ، لمس ، دوربین ، صفحه)

ویژگی های اصلی:

  • پردازش در زمان واقعی: تشخیص شیء و متن مبتنی بر دوربین

  • اتوماسیون متقاطع: سیستم های رزرو و برنامه ریزی یکپارچه

  • هوش رویداد: تنظیم خودکار تأیید و تنظیم یادآوری

این سیستم ضمن حفظ دسترسی آزاد ، قابلیت های پیشرفته ای را در اتوماسیون کار نشان می دهد ، اگرچه محدودیت های فعلی شامل فعال سازی کلمات بیداری و مسائل مربوط به مدیریت تماس گاه به گاه است.

Perplexity Sonar Pro: API جستجوی زمان واقعی با معماری استناد پیشرفته

Perplexity Sonar Pro API را راه اندازی کرده است و یک سیستم اطلاعاتی وب پیشرفته را معرفی می کند که قابلیت های جستجوی زمان واقعی را با تولید استناد خودکار ترکیب می کند ، و در عین حال که دارای تأخیر در پرس و جو زیر 100mms است ، به نمره 0.858 F در معیارهای SimpleQA می رسد.

معماری فنی:

  • زیرساخت پرس و جو: پردازش ناهمزمان با میانگین زمان پاسخ 150ms ، پشتیبانی از 500 درخواست همزمان در ثانیه

  • پردازش متن: پنجره گسترده تا 100K توکن ، تخصیص حافظه پویا با نرخ ضربه 95 ٪ حافظه نهان

  • لایه ادغام: نقاط پایانی API با پشتیبانی WebSocket ، پروتکل های JSON/GRPC ، رمزگذاری SSL 128 بیتی

معیارهای عملکرد:

اجرای شرکت:

  • موفقیت استقرار: 20 ٪ افزایش توان در کپی AI ، 8 ساعت افزایش بهره وری هفتگی

  • پروتکل امنیتی: SOC2 نوع II با کنترل دسترسی مبتنی بر نقش سازگار است

استنادها: سیستم تأیید منبع جدید کلود با افزایش 15 ٪ دقت

Anthropic استنادها را راه اندازی کرده است ، یک ویژگی پیشرفته API برای Claude 3.5 Sonnet و Haiku که تأیید دقیق منبع را از طریق تجزیه و تحلیل اسناد خودکار امکان پذیر می کند. این سیستم در حالی که روند توسعه را ساده تر می کند ، پیشرفت های قابل توجهی در دقت استناد نشان می دهد.

معماری فنی:

ویژگی های عملکرد:

  • بهبود دقت: 15 ٪ افزایش در دقت فراخوان نسبت به پیاده سازی های سفارشی

  • دانه بندی: با پشتیبانی محتوای سفارشی با فرمت استناد ، هزینه های خروجی را کاهش می دهد.

تأثیر دنیای واقعی:

این سیستم پیشرفت های قابل توجهی در برنامه های سازمانی نشان داده است که تامسون رویترز گزارش دقت در مستندات حقوقی و EndEx را در اجرای توهم صفر در اجرای تحقیقات مالی انجام داده است.

آخرین امتحان بشریت: تعریف مجدد مدل AI

مرکز ایمنی و مقیاس هوش مصنوعی AI آخرین امتحان بشریت (HLE) را معرفی کرده است ، معیار پیشگامانه ای که نقاط ضعف انتقادی را در مدلهای زبان پیشرفته کشف می کند.

طراحی معیار:

  • ساخت مجموعه داده ها: 3000 سؤال بسیار تخصصی که نزدیک به 1000 متخصص موضوع ایجاد شده است.

  • دامنه دانش: بیش از 100 رشته دانشگاهی ، از جمله زمینه های تحقیقاتی برجسته را در بر می گیرد.

عملکرد مدل:

رتبه بندی دقت HLE:

  • O3-Mini (محاسبات بالا): 13.0 ٪ دقت ، خطای کالیبراسیون 93.2 ٪
  • Deepseek-R1: 9.4 ٪ دقت ، خطای کالیبراسیون 81.8 ٪

  • تفکر جمینی: 7.7 ٪ دقت ، خطای کالیبراسیون 91.2 ٪

  • GPT-4O: 3.3 ٪ دقت ، خطای کالیبراسیون 92.5 ٪

مقایسه با معیارهای سنتی:

  • در آزمون های استاندارد دانشگاهی مانند MMLU ، مدل ها بالاتر از 85 ٪ دقت هستند.

  • در HLE ، هیچ مدل از 13 ٪ پیشی نمی گیرد و شکافهای عمده عملکرد را نشان می دهد.

همه مدل ها بیش از 80 ٪ خطای کالیبراسیون را نشان می دهند ، که نشانگر عدم اطمینان قابل توجه است.

ابزارها و نسخه هایی که باید در مورد آنها بدانید

  • استفاده از مرورگر: این ابزار با استخراج همه عناصر تعاملی از وب سایت ها ، ادغام عوامل AI با مرورگرهای وب را ساده می کند. این امر به نمایندگان اجازه می دهد تا روی کارهای خاص تمرکز کنند و عملکرد آنها را افزایش دهند. ایده آل برای توسعه دهندگان انفرادی و پروژه های منبع باز ، همچنین راه حل های سفارشی را برای تیم ها و مشاغل نیاز به ویژگی ها و پشتیبانی پیشرفته ارائه می دهد.

  • Cline 3.2: Cline 3.2 یک دستیار برنامه نویسی با هوش مصنوعی است که برای تقویت بهره وری توسعه دهنده طراحی شده است. با استفاده از تکنیک های پیشرفته پردازش زبان طبیعی (NLP) و یادگیری ماشین (ML) ، پیشنهادات کد در زمان واقعی ، تشخیص خطا و اتمام اتم را ارائه می دهد. CLINE 3.2 وظایف برنامه نویسی را ساده تر می کند ، و توسعه نرم افزار را برای همه توسعه دهندگان کارآمدتر و در دسترس تر می کند.

  • byeteda douba 1.5 procline: Bytedance's Doubao 1.5 Pro یک الگوی پیشرفته زبان بزرگ است که از یک ترکیب پراکنده از معماری متخصصان (MOE) استفاده می کند و عملکرد را با پارامترهای فعال سازی کمتری بهینه می کند. این به طور قابل توجهی از رقبای مانند GPT-4O در معیارهای مختلف و در عین حال هزینه های استنتاج کمتری برخوردار است. این مدل برای کارآیی طراحی شده است ، و به دلیل روش های آموزش مقرون به صرفه و پشتیبانی از تراشه انعطاف پذیر ، به حاشیه ناخالص 50 ٪ رسیده است

و این مسئله “این هفته در مهندسی هوش مصنوعی” را به شما رسانده است ، jam.dev– ابزاری که باعث می شود تیم شما گزارش های بد را برای شما غیرممکن کند.

با تشکر از شما برای تنظیم در! حتماً این خبرنامه را با علاقه مندان به AI خود به اشتراک بگذارید و مشترک شوید تا آخرین به روزرسانی ها را مستقیماً در صندوق ورودی خود دریافت کنید.

تا دفعه بعد ، ساختمان مبارک!

منابع

قولها

Deepseek vs GPT vs Qwen

عملگر

در اعماق عمیق

دستیار

SONAR PROPELENT

استنادها

در

مرورگر

کلین

پیش بینی

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا