توهم را متوقف کنید: APIها حلقه گمشده برای برنامه های کاربردی عامل قابل اعتماد هستند

ek3nk4r 2024-12-24

0 2 خواندن این مطلب 5 دقیقه زمان میبرد

توهم را متوقف کنید: APIها حلقه گمشده برای برنامه های کاربردی عامل قابل اعتماد هستند

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

در پست قبلی، چالش‌های ساخت اپلیکیشن‌های عامل را تنها با مدل‌های زبان بزرگ مورد بحث قرار دادیم. با کنار گذاشتن چالش عظیم آموزش مدل‌های زبان بزرگ در آرایه‌ای بی‌نهایت از موارد استفاده به منظور عملکرد حتی به عنوان یک دستیار شخصی ابتدایی، ما برنامه‌های کاربردی مبتنی بر عملکرد مستقل رابط‌های کاربری طراحی‌شده برای انسان‌ها را به عنوان یک چرخش اشتباه اعلام کردیم.

بارها و بارها می شنویم قابلیت اطمینان مانع اصلی برای جلوگیری از اجرای جدی LLM ها و برنامه های کاربردی عامل در سیستم های تجاری در سراسر صنایع است.

ابزاری که فقط 7 از 10 بار مطابق انتظار رفتار می کند بی فایده است: چکش، کلید چراغ، هواپیما یا توالت. چگونه می‌توانیم قابلیت اطمینان فناوری را بهبود ببخشیم که ارزش اصلی آن عبارتند از: برتری در تولید چیزها (مثلاً تصاویر، متن، ویدیو) و با توجه به متن، صدایی شبیه انسان؟

فهرست مطالب

داستان دو مدل محاسباتی

برنامه ها، همانطور که ما آنها را می شناسیم، بر اساس معیارهای کاملاً متفاوتی ارزیابی می شوند – یعنی: سازگاری، ویژگی و جبر. همان ورودی برای همیشه همان خروجی را تولید می کند. این مزیت رقابتی آنهاست.

LLM ها و سایر ابزارهای مولد داستان متفاوتی هستند: ورودی های یکسان می توانند خروجی های خفیف تا بسیار متفاوتی از سرگرم کننده تا آزاردهنده آشکار ایجاد کنند.

ما واگرایی از یک نتیجه مورد انتظار a را می نامیم اشکال در یک کاربرد سنتی و الف توهم در یک LLM. این تفاوت بیش از معنایی است. این منعکس کننده یک تضاد اساسی بین پارادایم های عملیاتی است که باید قبل از اینکه برنامه های کاربردی در پذیرش انبوه موفق شوند، با هم هماهنگ شوند.

در زیر یک رویکرد جدید برای توسعه برنامه های کاربردی عامل با ترکیب بهترین این دو مدل محاسباتی قدرتمند را بررسی می کنیم. این راه حل به خوبی با وضعیت فعلی هنر در توسعه عامل هوش مصنوعی رقابت می کند.

برای دیدن دیدگاه ما در مورد آینده برنامه های کاربردی به ادامه مطلب بروید.

مقایسه APIها و LLMها

API ها	LLMs
ساختار بسیار بالا (رابط HTTP)	بدون ساختار (رابط زبان طبیعی)
عدم تحمل برای واگرایی	تحمل بالا برای واگرایی
سریع	آهسته
ابزارهای ایجاد شده برای یکپارچه سازی سیستم ها	ابزارهای جدید سیستم های یکپارچه سازی
سازگار نیست	بسیار سازگار (مستعد توهم)

دارایی ها و بدهی های نسبی API ها در مقابل LLM ها

در بالا یک تفکیک سریع از تفاوت های بین API و LLM ارائه شده است. در سال 2024، سیستم های تجاری از API های گسترده ای تشکیل شده اند که برای دسترسی از طریق HTTP طراحی شده اند. به خودی خود و بدون تغییر، با رابط های زبان طبیعی مانند LLM ناسازگار هستند.

اگر می‌خواهیم چنین سیستم‌هایی عامل باشند، باید یک پایگاه داده برداری را روی آن‌ها بازسازی کنیم و کار سخت بردار کردن داده‌هایمان را انجام دهیم.

این همه در خدمت در دسترس قرار دادن این داده ها در پیاده سازی RAG است تا LLM ما بتواند اطلاعات اختصاصی گسترده ای را در پاسخ های خود بگنجاند. ممکن است مجبور شویم یک چت بات سفارشی بسازیم و ممکن است همچنان مجبور باشیم چت بات خود را بر روی داده های خود آموزش دهیم.

چه سرمایه‌گذاری عظیمی برای تطبیق سیستم‌های باطن ما با آنچه که در اصل، یک رابط کاربری جدید است!

با این حال، ما رویکرد متفاوتی داریم.

موارد استفاده

با موارد استفاده شروع شد. LLM ها در مصرف ورودی متنی و ارائه خروجی مناسب استثنایی هستند. ما متوجه شدیم که اگر یک LLM بتواند کاری به سادگی استنتاج مورد استفاده مرتبط با درخواست زبان طبیعی انجام دهد، ما بیشتر راه حلی برای یک دستیار هوش مصنوعی قدرتمند داریم.

مورد استفاده هر چیزی است که ما دوست داریم هوش مصنوعی از طرف ما انجام دهد. ما نمونه اولیه درخواست ماشین را با یک برنامه سواری ساختیم. ما می‌خواستیم بتوانیم با میکروفون تلفن خود صحبت کنیم و از دستیار بخواهیم جزئیات سفر را در جایی برای ما بیاورد و جزئیاتی مانند هزینه و مدت زمان سواری را برگرداند.

فقط نیت شما چیست؟

ما انتخاب کردیم که از مهندسی سریع اولیه برای آموزش یک LLM برای ایجاد چیزی که ما می نامیم استفاده کنیم مشخصات قصد از یک درخواست به عنوان مثال، با درخواستی مانند “برای من یک اوبر به مدیسون اسکوئر گاردن بیاور” LLM چیزی شبیه به این را برمی گرداند:

{
    context: {
      location: {
        current: {
          address: null,
          bookmarked: false,
          lat: '37.7752315',
          lng: '-122.418075',
          name: null,
        },
        destination: {
          address: null,
          bookmarked: false,
          lat: '',
          lng: '',
          name: 'AMC Empire 25',
        },
      },
      user: {
        displayName: 'Augustus',
        id: 'dd495dbb-5a2f-46ed-8009-ad2bf0b85fcc',
      },
    },
    domain: 'app.intents.mobility.get_ride',
    reply_id: '903496b2-b3f2-4f70-8574-16ae38403550',
  }

از بدون ساختار به ساختارمند. LLM یک هدف را از یک درخواست زبان طبیعی به دست می آورد. برنامه موبایل ما موارد فوق را طراحی می کند مشخصات قصد قبل از ارسال آن به باطن ما

این یک الگو است. همانطور که هست ناقص است با این حال، با چند شات، یک LLM در تولید چنین الگوهایی بسیار خوب می شود. اکنون که ما یک قصد که همراه با نام مقصد مشخص شده است، برنامه تلفن همراه ما سایر داده های متنی مورد نیاز برای پرس و جو از پشتیبان ما را جمع آوری می کند، مانند:

نام نمایشی
شناسه کاربر
داده های مکان فعلی

هنگامی که قالب ما پر شد، درخواست را به باطن خود ارسال می کنیم. در سرور خود ما از Google Maps Geocoding API برای بازیابی مختصات پارامتر مقصد در مشخصات intent ما.

رانندگی به خانه…

مسلح به این مختصات، می‌توانیم با آن تماس بگیریم Uber API تا ببینید چه خدماتی Uber در دسترس است.

هنگامی که اوبر پاسخ می دهد، ما یک پیام پاسخ قصد ایجاد می کنیم و آن را به برنامه خود ارسال می کنیم. LLM ما می داند که چگونه یک پاسخ قصد را به زبان طبیعی تبدیل کند و از آنجا استفاده از راه حل تبدیل متن به گفتار برای ارائه صدای برنامه ما یک موضوع بی اهمیت است.

et voila! ما اکنون یک خدمتکار با صدای فعال داریم که می‌توانیم به ما دستور دهیم تا با زبان طبیعی ماشینی برای ما بیاورد.

این طراحی به ما امکان می‌دهد از داده‌های ساختاریافته استفاده کنیم، که APIهای موجود ما به آن نیاز دارند، در حالی که به ما امکان می‌دهد امکانات رابط‌های زبان طبیعی را برای ارائه تجربه غنی‌تری در تعامل با سیستم‌ها به کاربران نهایی خود کاوش کنیم.

فکر کردن به فردا

همانطور که چشم انداز هوش مصنوعی به تکامل خود ادامه می دهد، ما تا حد امکان به استراتژی های زیادی برای دسترسی به داده های قفل شده در سیستم های خود نیاز خواهیم داشت. ما می خواهیم این کار را با کمترین زحمت ممکن انجام دهیم. ممکن است منابع یا تخصص در قالب مهندسان هوش مصنوعی یا یادگیری ماشینی برای ساختن سیستم‌های عامل سفارشی برای ما نداشته باشیم.

توانایی استفاده از صلاحیت‌های مهندسی موجود ما به سمت برنامه‌های کاربردی هوش مصنوعی در حال ظهور بسیار مهم است زیرا این دانش بسیار تخصصی در عرضه کافی وجود نخواهد داشت.

یافتن راه‌هایی برای ترکیب API‌های سنتی و LLM‌های پیشرفته به این معنی است که ما نه تنها می‌توانیم بهترین‌های هر دو جهان را هنگام ایجاد راه‌حل‌های نوآورانه به‌دست آوریم، بلکه تضمین می‌کند که مهم نیست آینده LLM‌ها چه خواهد بود، ما آماده حرکت در مسیر خواهیم بود. سرعت تغییر

ek3nk4r 2024-12-24

0 2 خواندن این مطلب 5 دقیقه زمان میبرد