برنامه نویسی

ساختمان autollmbench: چگونه من به عوامل هوش مصنوعی آموختند تا تابلوی خود را حفظ کنند

(ارسال شده در وبلاگ من)

AutollMbench از یک کنجکاوی ساده شروع کرد: آیا می توانم از توانایی های عمومی قابل توجه AI برای خودکارسازی وظیفه خسته کننده حفظ تابلوهای معیار استفاده کنم؟ بسیاری از این تابلوهای رهبری به شدت به تلاش دستی بستگی دارند – جمع آوری داده ها از سایت های مختلف ، قالب بندی صحیح آن و به روز کردن همه چیز به طور مرتب. این یک مشکل عالی برای عوامل هوش مصنوعی احساس می شد ، اگرچه سفر واقعی بسیار پیچیده تر و جذاب تر از آنچه در ابتدا پیش بینی می کردم.

از Live Leaderboard در AutollMbench دیدن کنید.

چرا AutollMbench؟

انگیزه من فقط مربوط به ردیابی معیارها نبود – هر کس می تواند این کار را به صورت دستی انجام دهد. در عوض ، من می خواستم بررسی کنم که عوامل AI چگونه می توانند وظایف اتوماسیون عملی را انجام دهند. آیا آنها می توانند از واقعیت های کثیف نامگذاری متناقض ، قالب های مختلف داده و فریب مداوم داده های جدید حرکت کنند؟ آیا یک سیستم محور AI می تواند با حداقل نظارت انسانی ، آن را با اطمینان اداره کند؟

طراحی عوامل

در نگاه اول ، این مفهوم ساده بود: بگذارید AI کارهای استخراج تکراری را مدیریت کند. اما واقعیت به سرعت لایه های پیچیدگی را اضافه کرد. فهمیدم که چالش واقعی فقط استخراج نیست. این اطمینان از قابلیت اطمینان این عوامل در هنگام مواجهه با کنوانسیون های نامگذاری متناقض و قالب بندی غیرقابل پیش بینی در منابع بود. این سیستم به هوش نیاز داشت ، نه فقط اتوماسیون.

بررسی اجمالی سیستم

AutollMbench از طریق چندین مرحله با دقت ارکستر شده عمل می کند:

  1. استخراج داده ها، توسط یک اسکریپت ساده آغاز شد:

    • محتوای صفحه معیار را با استفاده از crawl4ai کتابخانه
    • بوها عامل استخراج معیار (با استفاده از LLM) محتوا را مستقیماً تجزیه می کند ، و از نظر هوشمند نمرات مدل را بیرون می کشد.
    • بوها عامل طبقه بندی مدل (همچنین از طریق LLM استفاده می شود) ناسازگاری های نام مدل را برطرف می کند ، آنها را به شناسه های استاندارد ، متعارف و شناسایی مدل های جدید در طول مسیر نقشه برداری می کند.
    • سپس داده های تصفیه شده به عنوان JSON ساختاری ذخیره می شوند.
  2. تولید سایت استاتیک:

    • یک مرحله ساخت جداگانه را اجرا می کند (llmbench build) تبدیل داده های JSON به یک سایت استاتیک کاملاً کاربردی.
    • فایل های HTML ، CSS و JavaScript را ایجاد می کند و یک تابلوی تعاملی و آسان برای پیمایش ایجاد می کند.
  3. اعزام:
    • سایت استاتیک حاصل به راحتی در صفحات GitHub مستقر می شود.

بینش فنی و اجرای

تصمیمات کلیدی فنی به طور قابل توجهی پروژه را شکل داد:

  • استخراج داده های LLM: این یک اکتشاف اصلی بود. به جای نوشتن منطق خراش سفارشی با انتخاب کننده های خاص CSS یا پرس و جوهای XPath برای هر سایت معیار – که شکننده است و به به روزرسانی های دستی مداوم نیاز دارد – رویکرد در اینجا متفاوت بود. نماینده محتوای صفحه خام را واگذار می کند (با استفاده از crawl4ai) این متن خام/HTML را مستقیماً به LLM ارائه می دهدبشر سپس از هوش مصنوعی خواسته می شود ساختار صفحه را درک کرده و مدل های مربوطه و نمرات آنها را بر اساس درک متنی استخراج کند. این به طور قابل توجهی پیکربندی دستی سایت خاص را که معمولاً با خراش وب همراه است ، کاهش می دهد.
  • اعتبار سنجی داده ها و عادی سازی: استفاده از خروجی های ساختاری از طریق مدل های Pydantic (BenchmarkDataبا ModelClassificationResult) بسیار مهم بود. این امر امکان اعتبار سنجی خودکار داده های استخراج شده LLM و نتایج طبقه بندی را فراهم می کند ، حتی شامل برخی از چک های برنامه ای برای رسیدگی به ناسازگاری های مشترک.

  • نقشه برداری مدل سازگار: رسیدگی به کنوانسیون های نامگذاری متنوع یکی از سخت ترین قسمت ها بود. عامل طبقه بندی مدل به طور هوشمندانه با نام مدل های متنوع در منابع مختلف با شناسه های داخلی استاندارد مطابقت دارد. اگرچه کامل نیست ، این رویکرد در مقایسه با قوانین سخت کدگذاری دستی به طرز شگفت آور خوبی تعمیم می یابد. این انعطاف پذیری برای مقیاس بندی موثر سیستم مهم بود.

AutollMbench همچنین دارای یک ساختار پیکربندی ساده و انعطاف پذیر است که هر معیار را به وضوح تعریف می کند. در اینجا یک پیکربندی مثال ساده برای وضوح وجود دارد:

{
  "name": "Aider LLM Benchmark",
  "description": "Polyglot benchmark testing LLMs on coding exercises across multiple languages",
  "methodology": "Automated evaluation of LLMs' code editing abilities",
  "source_url": "https://aider.chat/docs/leaderboards/",
  "type": "code_edit",
  "metrics": [
    {"id": "percent_correct", "name": "Percent Correct", "description": "Percentage of exercises solved"},
    {"id": "cost", "name": "Cost", "description": "Total benchmark cost"}
  ],
  "display": {"primary_metric": "percent_correct"}
}
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

چالش ها و درسهای آموخته شده

ساختن autollmbench بدون چالش نبود:

  • رسیدگی به قالب های متنوع داده: علیرغم نقاط قوت هوش مصنوعی ، تنوع بسیار زیاد در ارائه داده های آنلاین خواستار تکرار چندین مورد برای تجدید نظر در سریع و معماری بود.

  • کیفیت برای خروجی های AI: اطمینان از صحت از خروجی های LLM مشکل بود. برای اصلاح رفتار هوش مصنوعی و بهبود قابلیت اطمینان ، نیازهای تنظیم شده با دقت و تکرار مکرر نیاز داشت.

این چالش ها یک درس مهم را تقویت می کند: اعتبار سنجی ساختار یافته و فوری متفکرانه عناصر غیر قابل مذاکره در ساخت خطوط لوله قوی و دارای هوش مصنوعی هستند.

بینش و بازتاب شخصی

کار در AutollMbench بسیار پاداش دهنده بود. این هم نقاط قوت چشمگیر و هم محدودیت های عملی سیستم های هوش مصنوعی فعلی را برجسته می کند:

  • سریع و دقیق سریع ، همراه با طرح های داده دقیق ، برای پردازش داده های قابل اعتماد AI محور ضروری است.
  • نظارت انسان هنوز اهمیت دارد – به ویژه هنگام ادغام منابع جدید داده یا پرداختن به مسائل خط لوله غیر منتظره.
  • توسعه تکراری مهم بود. پالایش تدریجی عوامل و اعلان های آنها به طور قابل توجهی عملکرد و قابلیت اطمینان را بهبود بخشید.

افکار نهایی

کاوش در پتانسیل هوش مصنوعی در اتوماسیون عملی بسیار تحقق یافته است. AutollMbench نشان می دهد که چگونه AI می تواند به طور معناداری تلاش دستی را کاهش دهد ، به شرط آنکه با اعتبار سنجی ساختاری و دقیق پشتیبانی شود. با پیشروی ، من هیجان زده ام که فراتر از معیارهای LLM گسترش یافته و تکنیک های پیشرفته تر اعتبار سنجی AI را کشف کنم ، و مرزهای اتوماسیون را بیشتر تحت فشار قرار می دهم.

ایجاد سیستم های عملی ، با قدرت هوش مصنوعی از نظر طبیعت همکاری می کند و به اشتراک گذاشتن بینش ، پیشرفت همه را تسریع می کند. اگر در حال بررسی مسیرهای مشابه هستید یا داستان های خود را برای به اشتراک گذاشتن دارید ، من واقعاً دوست دارم از شما بشنوم.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا