OU AI Agent + 3.7 غزل رتبه شماره 1 ما به 'Polyglot Bench کمک می کنیم – نمره 76.4 ٪

ما ساخته ایم یک عامل هوش مصنوعی منبع باز برای برنامه نویسی در IDE، و در معیار Polyglot Aider با نمره 76.4 ٪ در رده 1 قرار گرفت. این معیار حل مسئله خودمختار در 225 از سخت ترین تمرینات برنامه نویسی در C ++ ، GO ، Java ، JavaScript ، Python و Rust است.
با این امتیاز ، ما از 60.4 ٪ خود Ader با همان مدل ، Claude 3.7 Sonnet و همچنین Deepseek Chat V3 ، GPT-4.5 پیش نمایش و ChatGPT-4O بهتر عمل کرده ایم.
چگونه؟ عامل هوش مصنوعی ما از یک روش حل مسئله تکراری استفاده می کند: کد می نویسد ، آن را تأیید می کند ، خطاها را برطرف می کند و تا زمانی که کار به درستی حل شود ، تکرار می شود. بدون میانبر-نتایج قابل اعتماد و آماده تولید.
در حالی که Swe Bench توجه زیادی را به خود جلب می کند ، ما متوجه شده ایم که Polyglot یک اندازه گیری به مراتب بهتر از توانایی های حل مسئله عوامل هوش مصنوعی است. این فقط مربوط به گذراندن تست ها یا تولید کد خام نیست – بلکه در مورد استدلال ، دقت و ارائه راه حل های کاری است.
برای اطلاعات بیشتر در مورد تنظیم و رویکرد فناوری ما ، پست وبلاگ ما را بررسی کنید.
ما دوست داریم افکار و بازخورد شما را بشنویم!
در مورد معیار Polyglot Aider
این معیار ارزیابی می کند که چگونه AI می تواند 225 از سخت ترین تمرینات برنامه نویسی را از تمرینات در سراسر C ++ ، GO ، Java ، JavaScript ، Python و Rust انجام دهد. این منحصراً روی چالش برانگیزترین مشکلات و اقدامات متمرکز است:
- آیا هوش مصنوعی می تواند کد جدیدی بنویسد که یکپارچه در کد های موجود موجود باشد؟
- آیا هوش مصنوعی می تواند با موفقیت تمام تغییرات خود را در پرونده های منبع بدون مداخله انسانی اعمال کند؟
تست کامل تنظیم شده در repo معیار معیار Polyglot در GitHub.
چرا Polyglot> Swe Bench
نیمکت SWE محبوب است و اغلب به عنوان معیار اصلی عوامل برنامه نویسی هوش مصنوعی دیده می شود. با این حال ، محدودیت های قابل توجهی دارد:
- فقط تست پایتون
- فقط به 12 مخزن متکی است (به عنوان مثال ، جنگو ، سمپی)
- مدل های معیار اغلب در این repos از قبل آموزش دیده می شوند (نتایج چرب)
- فقط یک پرونده در هر کار تغییر می کند (غیرواقعی برای کار توسعه معمولی)
- تعامل انسان و عذاب بیش از حد ساده است (در واقعیت ، شیاطین نحوه همکاری آنها با هوش مصنوعی را تنظیم می کنند).
به دلیل این محدودیت ها ، SWE BENCH واقعاً کارآیی یک عامل هوش مصنوعی را در گردش کار مهندسی نرم افزار اندازه گیری نمی کند ، نه در یک محیط کنترل شده.
در مقابل ، Polyglot بسیار نماینده تر و واقع بینانه تر است – از محیط های توسعه دهندگان در هر روز تقلید می کند و نیازهای واقعی را منعکس می کند. این اندازه گیری می کند که چگونه AI می تواند به طور مستقل با پروژه های متنوع و چند زبانی تعامل داشته باشد.
بنابراین ، ما می خواهیم از Ader بخاطر معرفی این معیار جامع تشکر کنیم! این بینش بسیار خوبی در مورد ابزارهای برنامه نویسی AI ارائه می دهد و به هدایت راه حل های بهتر کمک می کند.
رویکرد ما: چگونه refact.ai به شماره 1 در تابلوی دست یافت
بسیاری از عوامل هوش مصنوعی به یک رویکرد تک متکی هستند-یک کار را دریافت کنید ، یک بار کد کنید و به بهترین ها امیدوار باشید. اما LLM ها همه آگاه نیستند-آنها محدودیت دارند و اشتباه می کنند ، بنابراین اولین تلاش آنها اغلب دقیق و قابل اعتماد نیست.
_SURE ، شما می توانید مدل های پیش از آن را برای انجام کارهای خاص که روند X را دارند ، از پیش رد کنید … اما نکته چیست؟ این به عملکرد دنیای واقعی ترجمه نمی شود.
_
در refact.ai ، ما کارها را متفاوت انجام می دهیم.
ما آن را یک حلقه بازخورد می نامیم:
- کد می نویسد: عامل بر اساس توضیحات کار کد تولید می کند.
- خطاها را برطرف می کند: چک های خودکار را برای مشکلات اجرا می کند.
- تکرار: در صورت یافتن مشکلات ، عامل کد را اصلاح می کند ، اشکالات را برطرف می کند و آزمایش های مجدد را تا زمان انجام موفقیت انجام می دهد.
- نتیجه را ارائه می دهد ، که بیشتر اوقات صحیح خواهد بود!
این باعث می شود ارزش واقعی هوش مصنوعی – در واقع حل مشکلات ، نه فقط به خوبی در معیارها به ثمر برسد.
اطلاعات بیشتر در مورد طرف فناوری را در وبلاگ ما بخوانید.
ویژگی های کلیدی Refact.ai عامل خودمختار هوش مصنوعی
نماینده پیشرفته AI Refact.ai مانند یک توسعه دهنده فکر می کند و عمل می کند و وظایف مهندسی نرم افزار را به پایان می رساند.
- اعدام وظیفه خودمختار
- درک عمیق متنی
- ادغام Dev Tools (Github ، Docker ، PostgreSQL ، MCP سرورهای و موارد دیگر)
- حافظه و بهبود مستمر
- همکاری انسانی
- منبع باز
refact.ai را در IDE خود امتحان کنید
برنامه نویسی VIBE آینده توسعه نرم افزار است. بهره وری 10 برابر را با refact.ai عامل در IDE خود دریافت کنید ، در حالی که روی کار اصلی تمرکز می کنید ، کارهای پیچیده برنامه نویسی را برای شما انجام می دهید.
✅ در دسترس همه در VS Code و JetBrains.
ما خوشحال خواهیم شد اگر شما Agent.Ai Agent را برای کارهای نرم افزاری خود توسعه دهید و نظر خود را به اشتراک بگذارید!