بیایید به طور جدی در مورد ARC-AGI و O3 صحبت کنیم

وقتی OpenAI در این ماه O3 و معیارهای آن را نشان داد، اولین فکر من این بود که “لعنتی، به لینکدین نرو”. هر بار که حتی یک پیشرفت کوچک در هوش مصنوعی، آن را با هزاران پستی که این یک بازی را تغییر می دهد، پر می کند. بیایید سعی کنیم با استفاده از NGI (هوش عمومی طبیعی) این موضوع را حفظ کنیم و به آن فکر کنیم.
زمینه ARC-AGI
ARC-AGI توسط François Chollet، همان فردی که کتابخانه یادگیری عمیق Keras را منبع باز تهیه کرد، ایجاد شد. او در مورد اندازه گیری هوش منتشر کرد و این نوع معیار را پیشنهاد کرد.
AGI سیستمی است که می تواند به طور موثر مهارت های جدیدی را خارج از داده های آموزشی خود کسب کند.
شما می توانید متوجه تغییر از اندازه گیری مهارت ها خود را به بررسی توانایی به مهارت ها را کسب کنند بر اساس دانش قبلی در واقع، آنها هنگام تعریف AGI وانمود نمی کنند که حقیقت پایه هستند، بیشتر شبیه همه تعاریف AGI اشتباه است، اما برخی از آنها مفید هستند.
تصور کنید شخصی به شما پول می دهد تا از بین هزاران تصویر مختلف، عکس اردک را انتخاب کنید. بر اساس کار شما، ما می توانیم AI DuckBinaryClassifier را آموزش دهیم که از شما بهتر عمل می کند. برای تغییر تشخیص اردک به سگ به چه میزان تلاش نیاز دارید؟ حالا شما مسلط هستید و مدل من بی فایده است، زیرا نمی تواند از دانش قبلی در این کار جدید استفاده کند.
این چیزی است که ARC-AGI در مورد آن است. بیایید مجموعه ای از وظایف را ایجاد کنیم که در آن راه حل:
- را می توان از نمونه های ارائه شده به ارث برد
- هر انسان غیر دیوانه ای می تواند حل شود
این یکی را بررسی کنید، می توانید آن را حل کنید؟
من شرط می بندم که باید چند ثانیه طول بکشد تا یک الگوی متحرک در اینجا شناسایی شود. به هر حال، این نمونهای است از زمانی که O3 بسیار وحشتناک با محاسبات بالا شکست خورد.
عملکرد O3
فکر می کنم خیلی ها این نمودار را دیده اند
و این جدول
و بسیاری این تخمین تقریبی را انجام دادند 3 هزار دلار برای هر کار با ضرب 172 (تفاوت بین پیکربندیهای محاسباتی بالا و پایین o3) و 17 (هزینه هر کار محاسبه کم).
با این حال، بسیاری از مردم به نوعی دنبال کردن را نیز از دست دادند
OpenAI به اشتراک گذاشت که آنها o3 را که ما آزمایش کردیم در 75٪ از مجموعه آموزش عمومی آموزش دادند. آنها جزئیات بیشتری را به اشتراک نگذاشته اند. ما هنوز مدل آموزش ندیده ARC را آزمایش نکرده ایم تا بفهمیم چه مقدار از عملکرد به دلیل داده های ARC-AGI است.
و این
گذراندن ARC-AGI معادل دستیابی به AGI نیست، و در واقع، من فکر نمیکنم o3 هنوز AGI باشد.
و در نهایت این
علاوه بر این، دادههای اولیه نشان میدهد که معیار ARC-AGI-2 آینده همچنان چالشی قابلتوجه برای o3 ایجاد میکند و به طور بالقوه امتیاز آن را حتی در محاسبات بالا به زیر 30 درصد کاهش میدهد (در حالی که یک انسان باهوش همچنان میتواند بیش از 95 درصد امتیاز کسب کند. بدون آموزش).
بنابراین، دوباره
- آنها یک مدل به ما نشان دادند که آن را AGI یا تا حدودی نزدیک به آن نامیدند
- ما هزینه واقعی هر کار را نمی دانیم، اما به نظر می رسد که بسیار زیاد است
- این مدل بر روی مجموعه داده های عمومی در دسترس از ARC-AGI آموزش داده شد
- ما از عملکرد مدل نه آموزش بر روی مجموعه داده ARC-AGI اطلاعی نداریم
ما اینجا در مورد چه لعنتی صحبت می کنیم؟ AGI؟ برای من به نظر می رسد یک مورد بازاریابی خالص با بسیاری از جزئیات مهم از دست رفته که همه به آن توجه نمی کنند.
افکار نهایی
میتوانیم بگوییم AGI زمانی به دست میآید که گزینههای ما برای ایجاد وظایفی که در آن انسان به راحتی از هوش مصنوعی بهتر عمل میکند تمام شود. آیا این “مدل AGI” تمام معیارهای ممکن را که از نظر اقتصادی مفید هستند را پشت سر خواهد گذاشت؟ چه کسی می داند. برای پاسخ به این، به معیارهای بیشتری نیاز داریم.
هرگز معیارهای کافی وجود نخواهد داشت
آنچه معیارها واقعاً در آن خوب هستند، فروش ایده پیشرفت در هوش مصنوعی به مردم است. به تجربه خود با ChatGPT-4 و ChatGPT-4o فکر کنید. آیا می توانید همیشه هنگام استفاده در برنامه روزانه خود بین آنها تمایز قائل شوید؟
همه می گویند که فقط چند سال طول کشید تا از ChatGPT-3 توهم آمیز خنده دار به AGI o3 نزدیک شویم. خوب، بله. هزینه آموزش ChatGPT-3 حدود 4.6 میلیون دلار بود، ChatGPT-4 بیش از 100 میلیون دلار تخمین زده می شود، هزینه o1 500 میلیون دلار پیش بینی می شود. چه پیشرفت استثنایی در دور ریختن پول فقط برای 4 سال انجام شد! تشکر ویژه از معیارها
غیرممکن است که به علنی برویم و بگوییم “خب، آره.. ما چند صد میلیون دلار خرج کردیم و یک مدل جدید گرفتیم.. بله.. طبیعتا بهتر است.. بزرگتر.. هوشمندتر.. برای بعدی احتمالاً به چند میلیارد دلار نیاز داریم.»
اما وقتی معیارهایی مانند ARC-AGI دارید، پادشاه هستید و اکنون می توانید صحبت کنید. مانند “شما ARC-AGI را می شناسید؟ ما همه را در آنجا شکست دادیم. من چیزی نمی گویم، اما به نظر می رسد در جایی نزدیک به مرحله AGI هستیم”. این مانترا پول باز به شرکت شما سرازیر می شود و این زمینه ای است که OpenAI به ویژه در آن برتری دارد.