توهم را متوقف کنید: APIها حلقه گمشده برای برنامه های کاربردی عامل قابل اعتماد هستند

در پست قبلی، چالشهای ساخت اپلیکیشنهای عامل را تنها با مدلهای زبان بزرگ مورد بحث قرار دادیم. با کنار گذاشتن چالش عظیم آموزش مدلهای زبان بزرگ در آرایهای بینهایت از موارد استفاده به منظور عملکرد حتی به عنوان یک دستیار شخصی ابتدایی، ما برنامههای کاربردی مبتنی بر عملکرد مستقل رابطهای کاربری طراحیشده برای انسانها را به عنوان یک چرخش اشتباه اعلام کردیم.
بارها و بارها می شنویم قابلیت اطمینان مانع اصلی برای جلوگیری از اجرای جدی LLM ها و برنامه های کاربردی عامل در سیستم های تجاری در سراسر صنایع است.
ابزاری که فقط 7 از 10 بار مطابق انتظار رفتار می کند بی فایده است: چکش، کلید چراغ، هواپیما یا توالت. چگونه میتوانیم قابلیت اطمینان فناوری را بهبود ببخشیم که ارزش اصلی آن عبارتند از: برتری در تولید چیزها (مثلاً تصاویر، متن، ویدیو) و با توجه به متن، صدایی شبیه انسان؟
داستان دو مدل محاسباتی
برنامه ها، همانطور که ما آنها را می شناسیم، بر اساس معیارهای کاملاً متفاوتی ارزیابی می شوند – یعنی: سازگاری، ویژگی و جبر. همان ورودی برای همیشه همان خروجی را تولید می کند. این مزیت رقابتی آنهاست.
LLM ها و سایر ابزارهای مولد داستان متفاوتی هستند: ورودی های یکسان می توانند خروجی های خفیف تا بسیار متفاوتی از سرگرم کننده تا آزاردهنده آشکار ایجاد کنند.
ما واگرایی از یک نتیجه مورد انتظار a را می نامیم اشکال در یک کاربرد سنتی و الف توهم در یک LLM. این تفاوت بیش از معنایی است. این منعکس کننده یک تضاد اساسی بین پارادایم های عملیاتی است که باید قبل از اینکه برنامه های کاربردی در پذیرش انبوه موفق شوند، با هم هماهنگ شوند.
در زیر یک رویکرد جدید برای توسعه برنامه های کاربردی عامل با ترکیب بهترین این دو مدل محاسباتی قدرتمند را بررسی می کنیم. این راه حل به خوبی با وضعیت فعلی هنر در توسعه عامل هوش مصنوعی رقابت می کند.
برای دیدن دیدگاه ما در مورد آینده برنامه های کاربردی به ادامه مطلب بروید.
مقایسه APIها و LLMها
API ها | LLMs |
---|---|
ساختار بسیار بالا (رابط HTTP) | بدون ساختار (رابط زبان طبیعی) |
عدم تحمل برای واگرایی | تحمل بالا برای واگرایی |
سریع | آهسته |
ابزارهای ایجاد شده برای یکپارچه سازی سیستم ها | ابزارهای جدید سیستم های یکپارچه سازی |
سازگار نیست | بسیار سازگار (مستعد توهم) |
دارایی ها و بدهی های نسبی API ها در مقابل LLM ها
در بالا یک تفکیک سریع از تفاوت های بین API و LLM ارائه شده است. در سال 2024، سیستم های تجاری از API های گسترده ای تشکیل شده اند که برای دسترسی از طریق HTTP طراحی شده اند. به خودی خود و بدون تغییر، با رابط های زبان طبیعی مانند LLM ناسازگار هستند.
اگر میخواهیم چنین سیستمهایی عامل باشند، باید یک پایگاه داده برداری را روی آنها بازسازی کنیم و کار سخت بردار کردن دادههایمان را انجام دهیم.
این همه در خدمت در دسترس قرار دادن این داده ها در پیاده سازی RAG است تا LLM ما بتواند اطلاعات اختصاصی گسترده ای را در پاسخ های خود بگنجاند. ممکن است مجبور شویم یک چت بات سفارشی بسازیم و ممکن است همچنان مجبور باشیم چت بات خود را بر روی داده های خود آموزش دهیم.
چه سرمایهگذاری عظیمی برای تطبیق سیستمهای باطن ما با آنچه که در اصل، یک رابط کاربری جدید است!
با این حال، ما رویکرد متفاوتی داریم.
موارد استفاده
با موارد استفاده شروع شد. LLM ها در مصرف ورودی متنی و ارائه خروجی مناسب استثنایی هستند. ما متوجه شدیم که اگر یک LLM بتواند کاری به سادگی استنتاج مورد استفاده مرتبط با درخواست زبان طبیعی انجام دهد، ما بیشتر راه حلی برای یک دستیار هوش مصنوعی قدرتمند داریم.
مورد استفاده هر چیزی است که ما دوست داریم هوش مصنوعی از طرف ما انجام دهد. ما نمونه اولیه درخواست ماشین را با یک برنامه سواری ساختیم. ما میخواستیم بتوانیم با میکروفون تلفن خود صحبت کنیم و از دستیار بخواهیم جزئیات سفر را در جایی برای ما بیاورد و جزئیاتی مانند هزینه و مدت زمان سواری را برگرداند.
فقط نیت شما چیست؟
ما انتخاب کردیم که از مهندسی سریع اولیه برای آموزش یک LLM برای ایجاد چیزی که ما می نامیم استفاده کنیم مشخصات قصد از یک درخواست به عنوان مثال، با درخواستی مانند “برای من یک اوبر به مدیسون اسکوئر گاردن بیاور” LLM چیزی شبیه به این را برمی گرداند:
{
context: {
location: {
current: {
address: null,
bookmarked: false,
lat: '37.7752315',
lng: '-122.418075',
name: null,
},
destination: {
address: null,
bookmarked: false,
lat: ' ',
lng: ' ',
name: 'AMC Empire 25',
},
},
user: {
displayName: 'Augustus',
id: 'dd495dbb-5a2f-46ed-8009-ad2bf0b85fcc',
},
},
domain: 'app.intents.mobility.get_ride',
reply_id: '903496b2-b3f2-4f70-8574-16ae38403550',
}
از بدون ساختار به ساختارمند. LLM یک هدف را از یک درخواست زبان طبیعی به دست می آورد. برنامه موبایل ما موارد فوق را طراحی می کند مشخصات قصد قبل از ارسال آن به باطن ما
این یک الگو است. همانطور که هست ناقص است با این حال، با چند شات، یک LLM در تولید چنین الگوهایی بسیار خوب می شود. اکنون که ما یک قصد که همراه با نام مقصد مشخص شده است، برنامه تلفن همراه ما سایر داده های متنی مورد نیاز برای پرس و جو از پشتیبان ما را جمع آوری می کند، مانند:
- نام نمایشی
- شناسه کاربر
- داده های مکان فعلی
هنگامی که قالب ما پر شد، درخواست را به باطن خود ارسال می کنیم. در سرور خود ما از Google Maps Geocoding API برای بازیابی مختصات پارامتر مقصد در مشخصات intent ما.
رانندگی به خانه…
مسلح به این مختصات، میتوانیم با آن تماس بگیریم Uber API تا ببینید چه خدماتی Uber در دسترس است.
هنگامی که اوبر پاسخ می دهد، ما یک پیام پاسخ قصد ایجاد می کنیم و آن را به برنامه خود ارسال می کنیم. LLM ما می داند که چگونه یک پاسخ قصد را به زبان طبیعی تبدیل کند و از آنجا استفاده از راه حل تبدیل متن به گفتار برای ارائه صدای برنامه ما یک موضوع بی اهمیت است.
et voila! ما اکنون یک خدمتکار با صدای فعال داریم که میتوانیم به ما دستور دهیم تا با زبان طبیعی ماشینی برای ما بیاورد.
این طراحی به ما امکان میدهد از دادههای ساختاریافته استفاده کنیم، که APIهای موجود ما به آن نیاز دارند، در حالی که به ما امکان میدهد امکانات رابطهای زبان طبیعی را برای ارائه تجربه غنیتری در تعامل با سیستمها به کاربران نهایی خود کاوش کنیم.
فکر کردن به فردا
همانطور که چشم انداز هوش مصنوعی به تکامل خود ادامه می دهد، ما تا حد امکان به استراتژی های زیادی برای دسترسی به داده های قفل شده در سیستم های خود نیاز خواهیم داشت. ما می خواهیم این کار را با کمترین زحمت ممکن انجام دهیم. ممکن است منابع یا تخصص در قالب مهندسان هوش مصنوعی یا یادگیری ماشینی برای ساختن سیستمهای عامل سفارشی برای ما نداشته باشیم.
توانایی استفاده از صلاحیتهای مهندسی موجود ما به سمت برنامههای کاربردی هوش مصنوعی در حال ظهور بسیار مهم است زیرا این دانش بسیار تخصصی در عرضه کافی وجود نخواهد داشت.
یافتن راههایی برای ترکیب APIهای سنتی و LLMهای پیشرفته به این معنی است که ما نه تنها میتوانیم بهترینهای هر دو جهان را هنگام ایجاد راهحلهای نوآورانه بهدست آوریم، بلکه تضمین میکند که مهم نیست آینده LLMها چه خواهد بود، ما آماده حرکت در مسیر خواهیم بود. سرعت تغییر