Claude 4 فرود آمده است: Anthropic رمزگذاری AI و قدرت عامل را دوباره تعریف می کند

آنچه را که فکر می کردید در مورد دستیاران برنامه نویسی هوش مصنوعی می دانید فراموش کنید. مدل های جدید Claude 4 Anthropic فقط به روزرسانی نیستند. آنها یک تغییر پارادایم هستند که Opus 4 از قبل به عنوان “بهترین مدل برنامه نویسی جهان” مورد ستایش قرار می گیرد. در اینجا همه چیزهایی را که باید در مورد این پرتاب تاریخی از 22 مه 2025 بدانید ، می دانید ، این قرار است تغییر شکل دهد که چگونه ما به توسعه نرم افزار و اتوماسیون AI محور نزدیک می شویم.
مدعیان جدید: معرفی Claude 4 Opus & Sonnet
Anthropic دو نیروگاه متمایز و در عین حال مکمل را رها کرده است:
- نزدیک کار 4: مدل پرچمدار ، که برای عملکرد بی نظیر در کارهای بسیار پیچیده طراحی شده است. آن را به عنوان متخصص برای ترین چالش های هوش مصنوعی خود ، به ویژه در برنامه نویسی ، استدلال پیشرفته و گردش کار پیشرفته و طولانی مدت عامل ، فکر کنید.
- Claude 4 Sonnet: اسب بخار ، متعادل کردن هوش با سرعت و کارآیی. Sonnet 4 برای مقیاس طراحی شده است ، و آن را به یک جایگزینی ایده آل در حال آماده سازی و به روزرسانی از نسخه های غزل قبلی برای کارهای روزمره ، برنامه های کاربردی سازمانی و فعالیت به عنوان یک عامل فرعی در سیستم های بزرگتر تبدیل می کند.
تحول در توسعه: قابلیت های کلیدی و پیشرفت های
وزوز اطراف کلود 4 فقط اعتیاد به مواد مخدره نیست. این پشتیبانی از پیشرفت های ملموس که مستقیماً بر توسعه دهندگان تأثیر می گذارد ، پشتیبانی می شود.
لبه “استدلال ترکیبی”
یک ویژگی برجسته برای هر دو مدل است استدلال ترکیبیبشر این به آنها اجازه می دهد تا به صورت پویا بین:
- پاسخ های نزدیک به یک فوری: برای نمایش داده شدگان و وظایف تعاملی که سرعت آن مهم است.
- تفکر گسترده: روشی که مدل ها در آن درگیر تجزیه و تحلیل ، برنامه ریزی و اجرای عمیق تر برای مشکلات پیچیده ای هستند که نیاز به “فکر” بیشتری دارند. این امر برای مقابله با چالش های برنامه نویسی پیچیده یا کارهای عامل چند مرحله ای بسیار مهم است. غزل 4 با تفکر گسترده حتی در دسترس کاربران آزاد است و دسترسی به این توانایی قدرتمند را دموکراتیک می کند.
Prowess Coding: آیا Opus 4 واقعاً “بهترین جهان” است؟
انسان شناسی نسبت به قابلیت های برنامه نویسی Opus 4 خجالتی نیست ، و معیارها قانع کننده هستند:
- SWE-BENCH: OPUS 4 به 72.5 ٪ قابل توجه (و 79.4 ٪ حتی چشمگیرتر در تنظیمات با ادعای بالا) دست می یابد. Sonnet 4 خیلی عقب نیست ، و یک امتیاز برتر 72.7 ٪ را در SWE-BENCH به ثمر می رساند و از بسیاری از مدل های تعیین شده بهتر عمل می کند.
- نیمکت ترمینال (برنامه نویسی CLI عامل): OPUS 4 در اینجا با 43.2 ٪ (50.0 ٪ با ترکیب بالا) نیز در اینجا هدایت می شود.
این نمرات نشان می دهد درک عمیقی از کد ، توانایی اصلاح مجدد کد های بزرگ و یک مشکل برای حل مسئله پیچیده در زمینه های مهندسی نرم افزار. کاربران اولیه دوست دارند مکان نما OPUS 4 را “پیشرفته برای برنامه نویسی” لقب داده اند ، “با ذکر” جهش در درک پیچیده کد “.
نیروگاه های خودمختار: استفاده از ابزار پیشرفته و حافظه
این جایی است که کلود 4 واقعاً قصد دارد از تعریف مجدد امکانات استفاده کند:
- کارهای طولانی مدت: OPUS 4 به گونه ای طراحی شده است که ساعت ها به طور مستقل کار می کند و با گردش کار پیچیده ای که هزاران مرحله را شامل می شود ، طراحی شده است. راسوتن مشهور این کار را با داشتن کار OPUS 4 در یک بازپرداخت منبع باز به مدت نزدیک به هفت ساعت تأیید کرد.
- استفاده از ابزار پیشرفته: هم اکنون هر دو مدل می توانند از چندین ابزار به طور موازی استفاده کنند و آنها را در حین تفکر گسترده یکپارچه کنند (به عنوان مثال ، جستجوی وب ، دسترسی به پرونده).
- حافظه برتر: پیشرفت های چشمگیر در حافظه ، به ویژه هنگامی که به پرونده های محلی دسترسی پیدا می کند ، به مدل ها اجازه می دهد تا زمینه را نسبت به تعامل گسترده ایجاد و حفظ کنند. OPUS 4 ، به ویژه ، در ایجاد و حفظ “پرونده های حافظه” عالی است.
قابلیت کنترل و کنترل: انجام آنچه می خواهید انجام دهید
Anthropic روی اطمینان و کنترل این مدل ها متمرکز شده است. Sonnet 4 به دلیل دقت بهبود یافته در دستورالعمل های زیر برجسته شده است. طبق گزارش ها ، هر دو مدل 65 ٪ کمتر به “پاداش هک” یا گرفتن میانبرها در کارهای عامل در مقایسه با پیشینیان خود مانند Sonnet 3.7 می پردازند.
عملکرد شیرجه عمیق: معیارها و مقایسه ها
فراتر از برنامه نویسی ، سری Claude 4 عملکرد قوی را در معیارهای مختلف استدلال و درک زبان نشان می دهد:
- OPUS 4: 88.8 ٪ در MMLU (گره خورده با Openai O3) و 79.6 ٪ چشمگیر (83.3 ٪ کمپیت بالا) در الماس GPQA (استدلال در سطح فارغ التحصیل) به دست می آورد.
- غزل 4: در حالی که برای کارآیی بهینه شده است ، هنوز هم عملکرد قوی را ارائه می دهد ، و آن را به عنوان یک ارتقاء قابل توجه نسبت به غزل 3.7 و یک مدعی قوی برای طیف گسترده ای از برنامه ها تبدیل می کند. عملکرد آن در Tau-Bench (استفاده از ابزار عامل) نیز قابل توجه است.
برش داده های آموزشی برای هر دو مدل مارس 2025 است که اطمینان حاصل می کند که آنها به دانش بسیار اخیر مجهز شده اند.
دسترسی و مقرون به صرفه: قیمت گذاری و در دسترس بودن
Anthropic قیمت های رقابتی را حفظ کرده است:
- نزدیک کار 4: (\ 15 دلار) در هر میلیون نشانه ورودی و (\ 75 دلار) در هر میلیون توکن خروجی.
- Claude Sonnet 4: (\ 3 دلار) برای هر میلیون نشانه ورودی و (\ 15 دلار) در هر میلیون نشانه خروجی.
ویژگی های صرفه جویی در هزینه مانند ذخیره سریع (حداکثر 90 ٪ پس انداز) و پردازش دسته ای (تا 50 ٪ پس انداز برای OPUS 4) در دسترس است.
مدل ها از طریق قابل دسترسی هستند:
- بستر آمازون
- Databricks (AWS ، Azure ، GCP)
- قشر برف Snowflake Ai
- پیش نمایش عمومی در GitHub Copilot (غزل 4)
حکم از سنگرها: آنچه توسعه دهندگان و متخصصان می گویند
بازخورد اولیه بسیار مثبت است:
- Refit: گزارش ها “پیشرفت های دقیق و چشمگیر را برای تغییرات پیچیده در چندین پرونده بهبود بخشیده است.”
- شناخت: یادداشت های OPUS 4 “در حل چالش های پیچیده ای که مدل های دیگر نمی توانند.”
- GitHubub: Claude Sonnet 4 “Soars in Agementic” را بیان می کند و عامل برنامه نویسی جدید Copilot خود را تأمین می کند.
- Sourcegraph: Sonnet 4 را به عنوان “جهش قابل توجهی در توسعه نرم افزار” می بیند و توانایی آن را برای طولانی تر ماندن در مسیر برجسته می کند.
- بلوک: OPUS 4 را به عنوان “اولین مدل که کیفیت کد را در هنگام ویرایش و اشکال زدایی در نماینده ما افزایش می دهد ، تمجید می کند … بدون اینکه عملکرد یا قابلیت اطمینان را قربانی کند.”
فراتر از مدل ها: ابزارهای جدید API برای سازندگان
برای تکمیل مدل های جدید ، Anthropic چهار قابلیت API را راه اندازی کرد:
- ابزار اجرای کد: برای اجرای کد تولید شده توسط مدل ها.
- کانکتور پروتکل متن مدل (MCP): تسهیل مدیریت بهتر زمینه.
- پرونده های API: اجازه می دهد تا مدل ها با فایلهای ارائه شده توسط کاربر تعامل داشته باشند.
- ذخیره سریع: برای بهبود کارایی و کاهش هزینه ها. در رمز این ابزار هم اکنون به طور کلی با ادغام برای اقدامات GitHub ، VS Code و JetBrains در دسترس است.
ایمنی اول: رویکرد انسان شناسی با کلود 4
انسان شناسی تعهد خود را به ایمنی ادامه می دهد:
- نزدیک کار 4: تحت پروتکل های “سطح ایمنی AI سطح 3” (ASL-3) منتشر شد ، که شامل امنیت سایبری و پیشگیری از زندان است.
- Claude Sonnet 4: منتشر شده در زیر “سطح ایمنی AI 2” (ASL-2). این اقدامات با هدف اطمینان از توسعه و استقرار مسئولانه ، پرداختن به سوء استفاده احتمالی ضمن به حداکثر رساندن برنامه های مفید انجام می شود.
جاده پیش رو: پیامدهای مربوط به هوش مصنوعی و مهندسی نرم افزار
راه اندازی Claude 4 Opus و Sonnet فقط تکرار دیگری نیست. این یک شتاب قابل توجه در قابلیت های هوش مصنوعی را نشان می دهد. برای مهندسان نرم افزار ، این بدان معنی است:
- دستیاران برنامه نویسی قدرتمندتر و قابل اعتماد تر.
- توانایی خودکار سازی وظایف توسعه فزاینده پیچیده.
- امکانات جدید برای ساختن عوامل پیشرفته هوش مصنوعی که می توانند در طی دوره های طولانی استدلال ، برنامه ریزی و اجرا کنند.
در حالی که پنجره زمینه ورودی 200،000 توکن باقی مانده است (با استفاده از OPUS 4 تا 32K توکن و غزل 4 تا 64k) ، پیشرفت در استدلال و رفتار عامل ، تمرکز خود را بر عمق توانایی به اندازه وسعت زمینه نشان می دهد.
نتیجه گیری: چرا کلود 4 اهمیت دارد
سری Claude 4 Anthropic ، به ویژه Opus 4 و Sonnet 4 ، یک لحظه مهم را نشان می دهد. این مدل ها با فشار دادن مرزهای مهارت برنامه نویسی ، قابلیت های عامل و استدلال ترکیبی ، توسعه دهندگان را به آینده ای ارائه می دهند که هوش مصنوعی یک شریک یکپارچه تر و قدرتمندتر در ایجاد و حل مسئله است. تأکید بر قدرت خام (OPU) و راندمان مقیاس پذیر (SONNET) ، همراه با یک چارچوب ایمنی قوی ، این پرتاب را به یکی از مهمترین پیشرفت های هوش مصنوعی سال تبدیل می کند. وقت آن است که شروع به بررسی آنچه Claude 4 می تواند برای پروژه های شما انجام دهد.