برنامه نویسی

آیا “فکر کردن به او” جهشی به جلو است یا فقط بازاریابی اعتیاد به مواد مخدره؟

تکامل سریع AI تولیدی در حال تغییر چشم انداز دیجیتال ما است. با داشتن مدل های جدید دارای قابلیت های استدلال پیشرفته – که اغلب به عنوان “مدل های تفکر” مارک می شوند – مشاغل این سؤال را مطرح می کنند که آیا این مدل ها واقعاً باهوش تر هستند یا اینکه ما صرفاً شاهد تغییر مجدد پیشرفت های افزایشی هستیم. برای کشف این موضوع ، من یک آزمایش را برای ارزیابی دلاوری منطقی مدل های مختلف مکالمه AI برای استفاده رایگان طراحی کردم. رویکرد من؟ برای به چالش کشیدن انواع مختلف استدلال سنتی و پیشرفته با تست های رمزگذاری شده به طور موضوعی با عنوان آهنگ مشهور مرتبط است: “راه پله به بهشت“توسط Led Zeppelin.

بررسی اجمالی
من دو چالش رمزگشایی مجزا را ایجاد کردم:

  • آزمون 1: رمزنگاری مربع پلیبیوس

متن رمزگذاری شده:

d3.d4.a1.b4.d2.e2.a1.e4.d4

C4.B3.A5.A1.E1.A5.C3

در این آزمایش از یک نوع از میدان 5×5 Polybius (ادغام “I” و “J”) استفاده شده است ، با متن رمزگذاری شده برای افزایش پیچیدگی. هیچ جزئیاتی در مورد روش رمزنگاری ارائه نشده است و مدلها را وادار به استنباط رویکرد می کند.

  • تست 2: رمزنگاری شبکه Playfair

متن رمزگذاری شده: tnpbvyfnqkglwnu

در این چالش ، من صریحاً به رمزگذاری Playfair اشاره کردم و اشاره ای برای استفاده از یک کلید مشترک ارائه کردم. من به جای استفاده از “سلطنت” که اغلب ذکر شده است ، “Playfair” را به عنوان کلید رمزگشایی در نظر گرفته شده برای تشویق استدلال منطقی که مستقیماً به نام رمزگذاری شده است ، انتخاب کردم.

هر آزمون چهار بار تکرار شد تا ماهیت غیر قطعی این مدلها را به حساب آورد ، با میانگین زمان انجام کار ثبت شده.

آزمون 1: رمزنگاری مربع پلیبیوس
سریع: “آیا می توانید پیام پنهان را رمزگشایی کنید؟

d3.d4.a1.b4.d2.e2.a1.e4.d4

c4.b3.a5.a1.e1.a5.c3 “

نتایج:

مدل های سنتی (به عنوان مثال ، Chatgpt 4O ، Deepseek 3 ، Claude 3.5 Sonnet ، Gemni Flash 2.0): همه نتوانستند رمزگشایی را رمزگشایی کنند ، و این نشان دهنده محدودیتی در رسیدگی به متن حتی نسبتاً مبهم است.
مدلهای تفکر (به عنوان مثال ، O3-Mini ، Deepseek R1 ، Gemni Flash 2.0 تفکر): O3-Mini با موفقیت پیام را به طور متوسط ​​19 ثانیه رمزگشایی کرد. Deepseek R1 موفق به رمزگشایی رمزگذاری نیز شد ، اما به طور متوسط ​​110 ثانیه نیاز داشت. تفکر Gemni Flash 2.0 نتوانست رمز را در چندین تکرار حل کند.

تجزیه و تحلیل: چالش Square Polybius واگرایی عملکرد روشنی را نشان داد. مدل های سنتی کاملاً مبارزه می کردند ، در حالی که برخی از مدلهای تفکر-به ویژه O3-Mini-قابلیت های استدلال تقویت شده را نشان می دهند. با این حال ، عملکرد متناقض در بین مدلهای تفکر نشان می دهد که همه معماری ها به عنوان “تفکر” به همان اندازه مؤثر نیستند.

تست 2: رمزنگاری شبکه Playfair
سریع: “آیا می توانید رمز را با استفاده از شبکه playfair tnpbbvyfnqkglwnu رمزگشایی کنید
در صورت نیاز به یک کلید مشترک استفاده کنید. “

نتایج:

مدل های سنتی: به طور مداوم نتوانست رمز را رمزگشایی کند.
مدل های تفکر: O3-Mini دوباره عالی شد و رمز را به طور متوسط ​​119 ثانیه حل کرد. Deepseek R1 پیشرفت جزئی را نشان داد اما در نهایت مشکل را “سرنگون” کرد و به طور متوسط ​​بیش از 4 دقیقه بدون راه حل قطعی بود. Gemni Flash 2.0 تفکر نتوانست یک بار دیگر رمز را رمزگشایی کند.

تجزیه و تحلیل: رمزنگاری Playfair ، با پیچیدگی و اشاره اضافه شده ، بیشتر از مزایا – و محدودیت ها – مدل های تفکر تأکید می کند. در حالی که O3-Mini حتی در شرایط چالش برانگیز ، حل مسئله قوی را نشان داد ، مبارزات Deepseek R1 تأکید کرد که استدلال پیشرفته موفقیت را در تمام کارها تضمین نمی کند.

میانگین زمان رمزگشایی برای تست های رمزنگاری Polybius و Playfair در مدلهای مختلف AI ، برجسته کردن شکاف عملکرد و پیشرفت های افزایشی که در مدل های

پایان
این آزمایش شواهد قانع کننده ای را ارائه می دهد که نشان می دهد “مدل های تفکر” چیزی بیش از یک کلمه کلیدی بازاریابی نیست. شکاف عملکرد واضح-به ویژه موفقیت مداوم O3-Mini در مقایسه با خرابی مدل های سنتی-نشان می دهد که تکنیک های یادگیری تقویت کننده در حال ارائه AI با پیشرفت های ملموس در استدلال منطقی هستند.

نکته مهم این است که یک روند با هر نسخه جدید از نسخه جدید پدیدار می شود: آخرین تکرار ، O3-Mini ، به طور مداوم از پیشینیان خود بهتر است ، و دومین مورد جدید ، Deepseek R1 ، پیشرفت های قابل توجهی را نسبت به مدل های قبلی در هر دو قابلیت حل مسئله و سرعت نشان می دهد. این دستاوردهای افزایشی نشان می دهد که با تکامل این مدل های هوش مصنوعی ، توانایی آنها در مقابله با کارهای پیچیده تحلیلی به سرعت در حال پیشرفت است.

این یافته ها فراتر از رمزنگاری است. با افزایش هوش مصنوعی در عملیات تجاری – از تجزیه و تحلیل داده ها و برنامه ریزی استراتژیک گرفته تا خدمات به مشتری و توسعه محصول – درک این توانایی های استدلال ظریف ضروری خواهد بود. موفقیت های اولیه مشاهده شده در مدلهایی مانند O3-Mini در آینده ای که AI می تواند به طور مؤثر در کارهای پیچیده ای که به تفکر انتقادی و حل سریع مشکل نیاز دارند ، کمک کند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا