شبکه های اجتماعی

OpenAI می خواهد “توهمات” ChatGPT را برطرف کند، در اینجا نحوه انجام این کار آورده شده است

OpenAI می خواهد

گوگل و مایکروسافت در حال تلاش برای بهبود پاسخ ربات‌های چت خود با آموزش مدل‌های قدرتمند زبان بزرگ (LLM) هستند. ChatGPT سازنده OpenAI همچنین اعلام کرده است که مدلی را برای تشخیص توهم آموزش داده است.

توهم هوش مصنوعی چیست؟
توهمات هوش مصنوعی زمانی رخ می دهد که مدل های مجهز به هوش مصنوعی مانند ChatGPT یا گوگل بارد جعل اطلاعات و ارائه آنها به عنوان واقعیت. اخیراً، ChatGPT به موارد «جعلی» در پرونده دادگاه فدرال نیویورک اشاره کرد. در واقع، در طول ارائه بارد، چت بات اطلاعات اشتباهی را در مورد آن ارائه کرد جیمز وب تلسکوپ

حتی مدل‌های پیشرفته نیز مستعد تولید نادرست هستند – آنها تمایل به ابداع حقایق را در لحظات عدم اطمینان نشان می‌دهند. به گفته محققان OpenAI، این توهمات به ویژه در حوزه هایی که نیاز به استدلال چند مرحله ای دارند مشکل ساز هستند، زیرا یک خطای منطقی تنها برای از بین بردن راه حل بسیار بزرگتر کافی است.

این شرکت تحت حمایت مایکروسافت گفت که کاهش توهم گامی حیاتی به سمت ساختن هوش عمومی مصنوعی (AGI) است — ماشینی که می تواند وظایف فکری را مانند انسان ها درک یا یاد بگیرد.

مدل های هوش مصنوعی برای پاداش دادن به خود
ما مدلی را آموزش داده‌ایم تا با پاداش دادن به هر مرحله صحیح استدلال (“نظارت بر فرآیند”) به جای پاداش دادن به پاسخ نهایی صحیح (“نظارت بر نتیجه”) به یک پیشرفته‌تر در حل مسائل ریاضی دست یابیم. این شرکت در تحقیقی که این هفته منتشر شد، گفت.

به عبارت ساده‌تر، OpenAI می‌خواهد مدل‌های هوش مصنوعی را آموزش دهد تا برای هر مرحله صحیح استدلال به خود پاداش دهند و نه فقط برای پاسخ صحیح. OpenAI گفت که این مدل عملکرد را افزایش می دهد و به طور مستقیم مدل را برای “تولید یک زنجیره فکری که توسط انسان ها تایید می شود” آموزش می دهد. این بدان معنی است که نظارت مدل را تشویق می کند تا از یک فرآیند تایید شده توسط انسان پیروی کند.

پژوهش OpenAI خاطرنشان کرد: «ما می‌توانیم مدل‌های پاداش را برای تشخیص توهمات با استفاده از نظارت بر نتیجه – که بازخوردی بر اساس نتیجه نهایی ارائه می‌کند – یا نظارت بر فرآیند – که بازخوردی را برای هر مرحله جداگانه در یک زنجیره از فکر ارائه می‌کند، آموزش دهیم.»

کارل کاب، محقق mathgen در OpenAI، به CNBC گفت که OpenAI مجموعه داده ای از 800000 برچسب انسانی را منتشر کرده است که از آن برای آموزش مدل ذکر شده در مقاله تحقیقاتی استفاده کرده است. تیم تحقیقاتی همچنین گفت که مدل پاداش تحت نظارت فرآیند عملکرد بهتری در کل دارد.

فیس بوکتوییترلینکدین



پایان مقاله

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا