OpenAI می خواهد “توهمات” ChatGPT را برطرف کند، در اینجا نحوه انجام این کار آورده شده است


گوگل و مایکروسافت در حال تلاش برای بهبود پاسخ رباتهای چت خود با آموزش مدلهای قدرتمند زبان بزرگ (LLM) هستند. ChatGPT سازنده OpenAI همچنین اعلام کرده است که مدلی را برای تشخیص توهم آموزش داده است.
توهم هوش مصنوعی چیست؟
توهمات هوش مصنوعی زمانی رخ می دهد که مدل های مجهز به هوش مصنوعی مانند ChatGPT یا گوگل بارد جعل اطلاعات و ارائه آنها به عنوان واقعیت. اخیراً، ChatGPT به موارد «جعلی» در پرونده دادگاه فدرال نیویورک اشاره کرد. در واقع، در طول ارائه بارد، چت بات اطلاعات اشتباهی را در مورد آن ارائه کرد جیمز وب تلسکوپ
حتی مدلهای پیشرفته نیز مستعد تولید نادرست هستند – آنها تمایل به ابداع حقایق را در لحظات عدم اطمینان نشان میدهند. به گفته محققان OpenAI، این توهمات به ویژه در حوزه هایی که نیاز به استدلال چند مرحله ای دارند مشکل ساز هستند، زیرا یک خطای منطقی تنها برای از بین بردن راه حل بسیار بزرگتر کافی است.
این شرکت تحت حمایت مایکروسافت گفت که کاهش توهم گامی حیاتی به سمت ساختن هوش عمومی مصنوعی (AGI) است — ماشینی که می تواند وظایف فکری را مانند انسان ها درک یا یاد بگیرد.
مدل های هوش مصنوعی برای پاداش دادن به خود
ما مدلی را آموزش دادهایم تا با پاداش دادن به هر مرحله صحیح استدلال (“نظارت بر فرآیند”) به جای پاداش دادن به پاسخ نهایی صحیح (“نظارت بر نتیجه”) به یک پیشرفتهتر در حل مسائل ریاضی دست یابیم. این شرکت در تحقیقی که این هفته منتشر شد، گفت.
به عبارت سادهتر، OpenAI میخواهد مدلهای هوش مصنوعی را آموزش دهد تا برای هر مرحله صحیح استدلال به خود پاداش دهند و نه فقط برای پاسخ صحیح. OpenAI گفت که این مدل عملکرد را افزایش می دهد و به طور مستقیم مدل را برای “تولید یک زنجیره فکری که توسط انسان ها تایید می شود” آموزش می دهد. این بدان معنی است که نظارت مدل را تشویق می کند تا از یک فرآیند تایید شده توسط انسان پیروی کند.
پژوهش OpenAI خاطرنشان کرد: «ما میتوانیم مدلهای پاداش را برای تشخیص توهمات با استفاده از نظارت بر نتیجه – که بازخوردی بر اساس نتیجه نهایی ارائه میکند – یا نظارت بر فرآیند – که بازخوردی را برای هر مرحله جداگانه در یک زنجیره از فکر ارائه میکند، آموزش دهیم.»
کارل کاب، محقق mathgen در OpenAI، به CNBC گفت که OpenAI مجموعه داده ای از 800000 برچسب انسانی را منتشر کرده است که از آن برای آموزش مدل ذکر شده در مقاله تحقیقاتی استفاده کرده است. تیم تحقیقاتی همچنین گفت که مدل پاداش تحت نظارت فرآیند عملکرد بهتری در کل دارد.
فیس بوکتوییترلینکدین
پایان مقاله