برنامه نویسی

ارزیابی هوش مصنوعی همسالان نقش آفرینی-جامعه dev

آینه ، آینه روی دیوار: هوشمندترین هوشیار همه آنها کیست؟

یک رویکرد جدید برای ارزیابی هوش مصنوعی را کاوش کنید: نظارت همسالان -یک مجموعه نقش آفرینی چند عامل که در آن سیستم های هوش مصنوعی نقش سؤال کنندگان ، پاسخ دهندگان و قضات را به عهده می گیرند ، از این طریق تعصب انسانی را به حداقل می رساند.

در این پست ، ما را معرفی می کنیم برخورد نهایی AI، یک برنامه ساده که نشان می دهد چگونه مسابقات با کنترل همسالان می تواند روشی پویا و کامل تر برای ارزیابی قابلیت های هوش مصنوعی ارائه دهد.

برنامه را به صورت زنده امتحان کنید: Ultimate-Clash-of-ai.streamlit.app

قبل از بررسی نحوه کار این چارچوب ، ابتدا بررسی کنیم که چرا معیارهای معمولی اغلب نتوانند طیف کاملی از هوش هوش مصنوعی را ضبط کنند.


مقدمه

در هوش مصنوعی-به ویژه در قلمرو مدلهای بزرگ زبان-عملکرد به طور معمول با استفاده از مجموعه های آزمایشی با انسان که درک زبان ، استدلال و سایر مهارت ها را اندازه گیری می کند ، ارزیابی می شود. معیارهای مشهور LLM شامل تیم ، چسب ، سوپرلو ، MMLU و لامبادابشر در حالی که این معیارها به شکل گیری این زمینه کمک کرده اند ، آنها با معیارهای تعریف شده توسط انسان ، داده های استاتیک و تعصبات سازندگان خود محدود می شوند.

با وجود ارزش آنها ، معیارهای سنتی کاستی هایی دارند:

  • تعصب انسانی: مجموعه داده ها نشان دهنده دیدگاه ها و دیدگاه های فرهنگی سازندگان آنها است.
  • تست استاتیک: پس از انتشار یک مجموعه داده ، مدل ها می توانند نقاط ضعف خود را بیاموزند ، نمرات مصنوعی را تقویت می کنند.
  • نشت داده های احتمالی: از آنجا که LLM ها اغلب در شرکت های اینترنتی گسترده آموزش دیده اند ، می توان اطمینان حاصل کرد که این مجموعه های آزمایشی (یا داده های مرتبط با آن) در خط لوله آموزش – احتمالاً عملکرد تورم گنجانده نشده اند.
  • محدوده باریک: تست های فعلی به ندرت چگونگی سازگاری AI با سؤالات تازه و چالش برانگیز ایجاد شده در زمان واقعی را اندازه گیری می کنند.
  • ارزیابی محدود: خلاقیت ، تفکر استراتژیک و استدلال چند مرحله ای به ندرت آزمایش می شوند.

به دلیل این شکاف ها ، یک الگوی جدید پیشنهاد شده است – نقش نظارتی را از انسان به مدلهای هوش مصنوعی تغییر می دهد و نمای گسترده تری از قابلیت های هوش مصنوعی ارائه می دهد.


مفهوم کنترل همسالان

نظارت همسالان ایده اصلی این رویکرد است. به جای تکیه بر تست های استاتیک و تولید شده توسط انسان ، سیستم های هوش مصنوعی سوالات خودشان را ایجاد ، پاسخ و قضاوت کنید در زمان واقعی این مدل تعصبات انسانی را به حداقل می رساند و بر محتوای عینی و قابل اثبات تمرکز می کند و درک غنی تری از نقاط قوت و محدودیت های AI را فراهم می کند.

در برخورد نهایی AI برنامه به عنوان نمایشی از چگونگی نظارت بر همسالان می تواند به یک رقابت سر به سر تبدیل شود. در این تنظیم ، هر هوش مصنوعی نه تنها باید پاسخ های صحیح و فصلی را برای چالش ها ارائه دهد بلکه همچنین سوالات معنادار را طراحی کنید و عادلانه همسالان خود را قضاوت کنیدبشر


برخورد نهایی AI چگونه کار می کند

در برخورد نهایی AI کاربرد ، سه (یا بیشتر) مدل های برتر AI مستقیماً رقابت می کنند ، بدون نظارت انسانی. هر مدل در نقش های زیر به نوبه خود می گیرد:

  1. عکسبردار: یک سؤال قطعی ، واقعی و قابل اثبات با هدف بررسی نقاط ضعف احتمالی پاسخ دهنده ایجاد می کند.
  2. پاسخ دهنده: پاسخ را ارائه می دهد و استدلال پشت آن را توضیح می دهد.
  3. داوری: سؤال (برای جبرگرایی و پیچیدگی) و پاسخ (برای صحت ، استدلال و وضوح) را ارزیابی می کند.

یک سوال معتبر چیست؟

یک سوال باید باشد قطعی ، واقعی و قابل اثبات:

  • قطعی: باید یک پاسخ صحیح و قطعی (یا یک مجموعه کوچک از پاسخ های صحیح) داشته باشد.
  • واقعی: باید به اطلاعات تعیین شده متکی باشد – نه نظر یا گمانه زنی.
  • قابل اثبات: باید از طریق حقایق بسیار شناخته شده ، اثبات منطقی یا منابع داده معتبر تأیید شود.

سؤالات ذهنی یا مبهم (به عنوان مثال ، “کدام فیلم بهترین است؟”) به طور خودکار از بازی خارج می شوند ، زیرا نمی توانند به طور عینی به ثمر برسند.


معیارهای ارزیابی و نمای کلی بازی

این رقابت در چندین دور ، دوچرخه سواری از طریق سؤال کننده ، پاسخ دهنده و قاضی نقش در بین شرکت کنندگان در هوش مصنوعی.

امتیاز دهی

هر نقش بر روی مقیاس 0-10:

پاسخ دهنده (ارزیابی شده توسط سؤال کننده و قاضی):

  • دقت: آیا پاسخ در واقع صحیح است؟
  • استدلال: آیا توضیح منطقی منسجم و ساختار یافته است؟
  • ارتباط: آیا جواب واضح و قانع کننده است؟

عکسبردار (ارزیابی شده توسط پاسخ دهنده و قاضی):

  • استراتژی: آیا این سؤال نقاط ضعف احتمالی پاسخ دهنده را بررسی می کند؟
  • خلاقیت: آیا این سؤال اصلی ، جذاب و اندیشه برانگیز است؟

از آنجا که هر هوش مصنوعی به عنوان سؤال کننده ، پاسخ دهنده و قاضی می شود نمرات یک عکس فوری 360 درجه را ارائه می دهند از قابلیت های مدل ها ، از جمله خلاقیت ، تفکر استراتژیک و استدلال.

مجازات سوال غیر تعیین کننده

اگر یک هوش مصنوعی (در حالی که به عنوان سؤال کننده خدمت می کند) نتواند a سوال تعیین کننده بعد از سه تلاش ، نمره می گیرد 0 برای خلاقیت و استراتژی در آن دور بازی ادامه می یابد و تأکید بر آن را تأیید می کند محتوای قابل اثباتبشر


چرا نظارت همسالان مزایایی نسبت به معیارهای سنتی ارائه می دهد

تعصب انسانی را کاهش داد: با از بین بردن مداخله مستقیم انسانی ، تعصبات فرهنگی و زبانی ذاتاً محدود هستند.

دشواری تطبیقی: سؤالات صنایع دستی AIS که نقاط ضعف یکدیگر را هدف قرار داده و از رکود در اطراف یک مجموعه داده ثابت جلوگیری می کند.

ارزیابی جامع: این رویکرد مهارت یک مدل را در پرسیدن ، پاسخ دادن و داوری ، ارائه دیدگاه چند جانبه از هوش هوش مصنوعی اندازه گیری می کند.

بهبود نفس: از طریق سؤال مداوم ، پاسخ دادن و ارزیابی ، هر یک از هوش مصنوعی این فرصت را دارد که مهارت های خود را در زمان واقعی اصلاح کند.

خلاقیت و استدلال: طراحی رقابت ، سؤالات جدید ، استراتژیک و پاسخ های پشتیبانی شده را تحریک می کند-ابعادی که اغلب توسط تست های استاتیک نادیده گرفته می شوند.


ارتباط با سایر روشهای چند عامل و خود بازی

در حالی که چند عامل یا رویکردهای مخالف کاملاً جدید نیستند ، مدل کنترل همسالان چندین مفهوم را اصلاح و ادغام می کند:

  • مباحثه و آموزش مخالف: بازی بحث و گفتگو Openai چالش های AI-to-Ai را مورد بررسی قرار داد ، اما اغلب به جای سؤالات قطعی ، به ارزیابی ذهنی متکی بود.
  • GANS (شبکه های مخالف تولیدی): برخلاف GANS ، که یک ژنراتور را در برابر یک تبعیض گیت می کند ، نظارت بر همسالان روی آن تمرکز دارد قابل اثبات امتیاز دهی پرسشنامه.
  • بازی خود در یادگیری تقویت: مشابه Alphazero ، اما با چرخش نقش ساختاری و تأیید.
  • نقش: مشابه برخی از آزمایشات LLM اخیر ، اما اجرای سوال و به ثمر رساندبشر
  • زنجیره اندیشه و ارزیابی خود: برخلاف هوش مصنوعی قانون اساسی ، که هنوز به دستورالعمل های تعریف شده توسط انسان متکی است ، نظارت همسالان درگیری انسان را به حداقل می رساندبشر

با هم گرفته شده ، نظارت همسالان برای چرخش نقش ، سیستم امتیاز دهی و تأکید بر سوالات قطعی و واقعی است -ارائه روشی متمایز و کاملاً گرد برای اندازه گیری قابلیت های هوش مصنوعی در یک محیط پویا.


دستورالعمل های تحقیق آینده

🔹 بهبود نقش قاضی: نحوه اندازه گیری عملکرد قاضی را اصلاح کنید و هرگونه تعصب باقیمانده را به حداقل برساند.

🔹 وظایف استدلال پیچیده: استدلال چند مرحله ای را برای آزمایش درک منطقی عمیق تر معرفی کنید.

🔹 مقیاس پذیر: به شبکه های بزرگی از AIS تخصصی گسترش دهید و کارشناسان دامنه را با ژنرالیست ها مقایسه کنید.

🔹 معیارهای ترکیبی: نظارت همسالان را با ممیزی های انسانی هدفمند یا منابع معتبر برای موارد مبهم ترکیب کنید.

🔹 اقدامات اخلاقی و ایمنی: سؤالات مبتنی بر واقعیت را برای جلوگیری از اطلاعات غلط یا محتوای مضر اجرا کنید.


پایان

در برخورد نهایی AI برنامه ارائه می دهد تظاهرات عملی نظارت همسالان در عمل-یک چارچوب پویا و خود تنظیم کننده برای اندازه گیری عملکرد AI در ابعاد مختلف. با چرخاندن نقش در بین سؤال کننده ، پاسخ دهنده و قاضی، ویژگی هایی مانند آن را برجسته می کند خلاقیت ، عمق استراتژیک و استدلال این معیارهای سنتی می توانند از دست بدهند.

همانطور که هوش مصنوعی همچنان در حال تحول است ، باید روشهای ما برای ارزیابی آن نیز انجام شود. چرا فقط به تست های استاتیک و تعریف شده توسط انسان وقتی AI می تواند خود را به چالش بکشید و خود را اصلاح کنید در یک محیط مشترک و رقابتی؟

مشاهده کد کامل در GitHub:

https://github.com/haggaishachar/ultimate_clash_of_ai

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا