برنامه نویسی

جلوه محاسبات بی نهایت – چرا هوش مصنوعی محلی اهمیت دارد

در عجله پیشرو ما به سمت همه چیز ، ما یک پارادوکس جالب ایجاد کرده ایم. شرکت ها و افراد به طور یکسان شروع به کار کرده اند که گویی منابع محاسبه بی نهایت هستند – فقط تماس API دیگری را به Openai ، Claude یا Gemini آتش می زنند. اما این طرز فکر ایجاد یک نقطه کور قابل توجه در نحوه نزدیک شدن به فناوری ، با عواقب آن بسیار فراتر از صفحه های ما است.

من فقط وقتی در حال ساخت Starlight بودم ، یک ابزار دیگر ایجاد نمی کردم ، یک برنامه دسک تاپ که با استفاده از مدل های محلی ، جستجوی معنایی را در فایلهای شما نمایه می کند و امکان پذیر می کند. من در مورد چگونگی نزدیک شدن به هوش مصنوعی در زندگی روزمره خود اظهار نظر می کردم.

Starlight به شما امکان می دهد با داده های خود گپ بزنید و اطلاعاتی را در پرونده های خود پیدا کنید بدون اینکه هرگز آن داده ها را به خدمات خارجی ارسال کنید. با استفاده از منابع محاسباتی خود ، همه چیز در دستگاه شما اتفاق می افتد. این وبلاگ به بررسی اینکه چرا برنامه هایی مانند Starlight Matter و چرا نباید هوش مصنوعی محلی را نادیده بگیریم.

جلوه محاسبات بی نهایت

من شروع به استفاده از رویکرد فعلی خود به هوش مصنوعی “The Infinite Compute Glitch” کردم – یک هذیان جمعی که ما فقط می توانیم بدون عواقب ، مدل ها و مراکز داده را کاهش دهیم.

بیایید به شماره های سخت نگاه کنیم:

  • یک پرس و جو chatgpt تنها 10-15 برابر انرژی بیشتری نسبت به Google Search RW دیجیتال مصرف می کند
  • تخمین زده می شود که آموزش GPT-4 بیش از 62 میلیون کیلووات ساعت برق استفاده کرده است
  • مراکز داده هوش مصنوعی می توانند از 3-5 میلیون گالن آب در روز برای خنک کننده استفاده کنند
  • ردپای کربن آموزش یک مدل بزرگ زبان می تواند برابر با پنج اتومبیل در کل عمر آنها باشد

یک مطالعه 2023 از دانشگاه ماساچوست نشان داد که آموزش یک مدل هوش مصنوعی مبتنی بر ترانسفورماتور می تواند به اندازه پنج اتومبیل در کل عمر خود از کربن ساطع کند. در همین حال ، مایکروسافت به دلیل محدودیت ظرفیت مجبور شد خدمات Aizure AI را در برخی مناطق محدود کند و نشان می دهد که حتی غول های ابری نیز به محدودیت های بدنی برخورد می کنند.

چرا محلی اول مهم است

داده های شما در خانه باقی می ماند

بارزترین مزیت حریم خصوصی است. هنگامی که پرونده های شما هرگز رایانه خود را ترک نمی کنند ، کنترل کامل بر اطلاعات خود را حفظ می کنید. هیچ شرایطی از خدمات تغییر نمی کند ، هیچ نگرانی در مورد نحوه استفاده از داده های شما برای آموزش مدل های آینده وجود ندارد.

این را در نظر بگیرید: تنها در سال 2023 ، شرکت های بزرگ هوش مصنوعی چندین بار شرایط خدمات خود را به روز کردند و اغلب حقوق خود را برای استفاده از داده های کاربر گسترش دادند. سامسونگ حتی پس از بارگذاری کد حساس در ChatGPT مجبور شد کارمندان را از استفاده از ابزارهای تولید کننده AI منع کند و بخشی از داده های آموزشی آن شد. با هوش مصنوعی محلی ، این سناریوها غیرممکن می شوند.

در ASML ، ما مجاز به استفاده از ابزارهای هوش مصنوعی نیستیم زیرا این شرکت اطلاعات حساس زیادی را که از نظر ملی نیز برخوردار است ، حمل می کند. من نگرانی آنها را درک می کنم ، اما وقتی سایر صنایع حساس کمتر از هوش مصنوعی برای تولید کارکنان خود استفاده می کنند ، در دوران گذشته احساس گیر می کنیم. این امر به راحتی با توانمندسازی کارمندان با هوش مصنوعی محلی ، چه از طریق دستگاه یا در پیش فرض قابل حل است.

محاسبات توزیع شده محاسبات انعطاف پذیر است

ما با استفاده از قدرت محاسباتی که روی میزهای خود و در دور خود نشسته است ، یک سیستم توزیع شده تر ایجاد می کنیم. ما به جای متمرکز کردن تمام محاسبات هوش مصنوعی در مراکز داده عظیم متعلق به تعداد معدودی از شرکت ها ، ما بار را در بین میلیون ها دستگاه پخش می کنیم.

متوسط ​​لپ تاپ مدرن اکنون قدرت محاسباتی بیشتری نسبت به آنچه برای آموزش نسخه های اولیه BERT استفاده می شود ، یکی از مدل های زبان دستیابی به موفقیت از سال 2018 است. یک رایانه شخصی معمولی با یک GPU مناسب می تواند مدل هایی را با میلیاردها پارامتر اجرا کند. ما در اقیانوس وسیع و بدون استفاده از قدرت محاسباتی نشسته ایم.

سرعت بدون انتظار

برای بسیاری از کارها ، پردازش محلی در واقع سریعتر است. بدون زمان بارگذاری ، نه تأخیر API ، بدون انتظار برای درخواست شما در پشت هزاران نفر دیگر. نتایج به همان سرعت ظاهر می شود که رایانه شما می تواند آنها را پردازش کند.

در آزمایش داخلی ما ، جستجوی محلی Starlight نتایج حاصل از یک مجموعه سند 1 گیگابایتی را در زیر 200 متر بازگرداند ، در حالی که تماس API ابری معادل 2 ثانیه هنگام حساب کردن تأخیر شبکه و زمان پردازش سرور طول می کشد. این یک تفاوت 10 برابر سرعت برای نمایش داده شدگان مشترک است.

راه حل های به اندازه راست

در اینجا چیزی است که ممکن است شما را شگفت زده کند: بیش از 80 ٪ از کارهای هوش مصنوعی که به طور متوسط ​​به روز نیاز دارد ، می تواند توسط مدلهای کوچکتر و محلی انجام شود. ما برای خلاصه کردن یک سند یا کمک به تهیه یک ایمیل به GPT-4 نیازی نداریم. با تطبیق کار با اندازه مدل مناسب ، ما منابع عظیمی را ذخیره می کنیم.

جمع بندی اسناد را بگیرید: یک مدل پارامتر 1.5 میلیارد پارامتر که به صورت محلی اجرا می شود ، می تواند خلاصه ای را که تقریباً قابل تشخیص از مدل های تولید شده توسط مدل های 100 برابر بزرگتر برای اکثر اسناد تجاری است ، تولید کند. تفاوت؟ مدل کوچکتر از کسری از انرژی استفاده می کند و نیازی به انتقال داده ندارد.

چه چیزی باعث پیشروی هوش مصنوعی محلی می شود

در اینجا اتفاق می افتد که هوش مصنوعی محلی اتفاق می افتد:

1. سخت افزار: افزایش قدرت پردازش

این بسیار شگفت انگیز است که چقدر قدرتمندتر دستگاههای ما شده اند! لپ تاپ ها ، تلفن های هوشمند و حتی سیستم های تعبیه شده کوچکتر هم اکنون با پردازنده ها و حافظه خود یک مشت جدی را بسته بندی می کنند. این بدان معنی است که آنها فقط برای کارهای اساسی نیستند. آنها عضله را برای رسیدگی مستقیم به مدل های پیشرفته هوش مصنوعی دریافت کرده اند. در مورد آن فکر کنید: تلفن شما امروز از مدت چندی پیش قدرت محاسبات بیشتری نسبت به کل رایانه ها دارد. این افزایش قدرت پردازش عامل بزرگی در فعال کردن هوش مصنوعی محلی است. با انتشار اخیر پردازنده های مبتنی بر ARM در رایانه های شخصی ، هوش مصنوعی محلی حتی قابل قبول تر شده است. پیشرفت های کلیدی باعث شده است که CPU و GPU یک حافظه یکپارچه به اشتراک بگذارند و به شما امکان می دهد مدلهای حتی بزرگتر را بر روی GPU و CPU/GPU فوق العاده کارآمد قرار دهید. این فقط به پیشرفت پیش می رود ، بنابراین ما باید برای استفاده از این قدرت محاسبات بدون استفاده ، هوش مصنوعی را به لبه ادامه دهیم.

2. معماری و داده های مدل

شکی نیست که مدل های LLM باهوش تر شده اند. هر روز یک مدل جدید و SOTA منتشر می شود. اما حتی مهمتر این است که مدل ها کوچکتر و کارآمدتر می شوند. در حالی که شرکت هایی مانند Openai به سمت مدل های بزرگتر و بزرگتر سوق می دهند که معتقدم جهت اشتباه برای جابجایی است ، شرکت هایی مانند Google ، Mistral و Meta همچنان با مدل های کوچک که به اندازه بزرگترین مدل های سال گذشته قدرتمند هستند ، ما را شگفت زده می کنند. به عنوان مثال GEMMA3 27B ، یک مدل پارامتر 27 میلیارد منبع باز از Google به اندازه Gemini-1.5-Pro ​​با منبع بسته خود خوب است که اعتقاد بر این است که بیش از 300 میلیارد پارامتر است. از طرح زیر می بینیم که هر دو Mistral Small 3.1 و Gemma-3 بهتر از GPT-4O-Mini هستند که باید در این مرحله یک مدل بسیار بزرگ باشد. حتی اگر این مدل های کوچک خوب باشند ، آنها فقط می توانند در رایانه های با سطح بالا خوب کار کنند. کاربر در صورت داشتن رایانه مشخص متوسط ​​مجبور است نسخه های حتی کوچکتر این مدل ها را تسویه کند. اما این یک شروع نیست.

چندین قطعه جدید نوآوری این کار را ممکن کرده است. معرفی حافظه پنهان KV ، توجه فلش ، تعبیه موقعیت دوار (طناب) فقط برخی از نوآوری هایی است که واقعاً شکاف بین عملکرد یک مدل محلی کوچک و یک مدل ابر بزرگ را کاهش داده است. همچنین کیفیت داده هایی که برای آموزش این مدل ها استفاده می شود در طول سالها بهبود یافته است. به جای آموزش فقط در مورد داده های خام از اینترنت که می تواند بسیار پر سر و صدا باشد ، پیش پردازش هوشمندانه زیادی انجام می شود تا مدل های کوچکتر نیز بتوانند یاد بگیرند.

نمودار

3. مدل خدمت: مدل ها و ابزارهای منبع باز

سرانجام ، قطعه نهایی این است که چگونه این مدل های AI محلی توزیع می شوند. در اینجا ، جامعه منبع باز کاملاً فعال بوده و پروژه هایی مانند Ollama ، Llamacpp ، شمع ، VLLM باعث می شود سخت افزار درجه مصرف کننده بتواند این مدل های منبع باز را به طور کارآمد اجرا کند. این پروژه ها رابط بین وزن مدل و سخت افزار واقعی هستند. کارآمد ساختن این تعامل ، کلید اصلی اجرای بهترین مدل ها با کمترین میزان محاسبات است.

اما فقط خدمت به این مدل ها کافی نیست. ابزارهایی مانند ChatGPT چندین تجربه کاربر دیگر مانند بوم ، جستجوی وب ، صدا به متن و غیره را ارائه می دهند که باعث می شود افراد از خدمات خود استفاده کنند. حتی اگر ما بهترین مدل ها را به صورت محلی در دسترس قرار دهیم ، افراد هنوز هم برای تجربه کاربر به سمت ، Openai ، Claude و غیره گران می شوند. این جایی است که محصولاتی مانند Starlight وارد می شوند. نرم افزار عصر جدید باید تا حد ممکن محلی باشد و به کاربران این امکان را می دهد تا با استفاده از مدل های AI محلی خود ، همان تجربه ای را که در Chatgpt یا سایر سیستم عامل های مشابه کسب می کنند ، بدست آورند. در این مرحله ، بیشتر در مورد شکستن عادت است. بیایید بگوییم که می خواهم یک مقاله تحقیقاتی را خلاصه کنم. عادت پیش فرض که در طول سه سال گذشته برای مردم ایجاد شده است ، گرفتن کاغذ و بارگذاری آن در چتپپ و درخواست خلاصه است. اما این یک کار بسیار آسان برای مدل های محلی است. بنابراین چگونه می توانیم نرم افزار را برای شکستن این عادت و سوء استفاده از مواردی که هوش مصنوعی محلی می تواند از AI Cloud AI استفاده کند ، استفاده کنیم. این یک چالش بزرگ خواهد بود که ما در Starlight تلاش می کنیم تا با ساختن ویژگی هایی که باعث می شود شما به جای مدل های ابری برای بیشتر کارهای خود به سمت مدلهای ابری گرایش پیدا کنید ، حل کنیم.

نوآوری در محدودیت ها

در Starlight ، ما به جای نادیده گرفتن آنها ، محدودیت هایی را در آغوش می گیریم. ما در حال یافتن راه های هوشمندانه برای مؤثرتر از مدل های کوچکتر از طریق نمایه سازی بهتر ، بازیابی و مدیریت متن هستیم.

به عنوان مثال ، ما یک رویکرد ترکیبی ایجاد کرده ایم که از مدل های تعبیه شده محلی برای فهرست بندی اسناد استفاده می کند و سپس از الگوریتم های بازیابی کارآمد برای یافتن مناسب ترین محتوا استفاده می کند. این رویکرد پنجره زمینه مورد نیاز برای کارهای نسل را کاهش می دهد و حتی به مدل های محلی کوچک نیز امکان می دهد تا نتایج با کیفیت بالا را در PAR با مدل های ابری بسیار بزرگتر به دست آورند. علاوه بر این ، ما در حال اجرای روش هایی مانند جمع بندی بازگشتی و تراورس نمودار برای فشرده سازی مقادیر زیادی از اطلاعات در زمینه محدود مدل های محلی هستیم. همچنین ، فقط مربوط به متن نیست ؛ حتی اگر مدل های محلی زمینه طولانی داشته باشند ، معمولاً سخت افزار نمی تواند این زمینه را پردازش کند زیرا ممکن است نتواند روی حافظه جای بگیرد یا محاسبات خیلی طولانی طول می کشد.

این رویکرد ما را وادار می کند تا در مورد نحوه استفاده از هوش مصنوعی متفکرتر باشیم. به جای پرتاب محاسبات در هر مشکلی ، می پرسیم: کارآمدترین راه برای حل این مسئله چیست؟ چگونه می توانیم ضمن به حداقل رساندن استفاده از منابع ، ارزش را تحویل دهیم؟

آینده ای متعادل تر: رویکرد ترکیبی

من پیشنهاد نمی کنم که ما AI Cloud را کاملاً رها کنیم – کاملاً از مواردی استفاده می شود که مدل های بزرگتر لازم باشند. اما با عمدی در مورد زمان و چگونگی استفاده از این منابع ، می توانیم رویکردی متعادل تر و پایدار برای هوش مصنوعی ایجاد کنیم.

دنیایی را تصور کنید که در آن:

  • اسناد شخصی ، ایمیل و یادداشت های شخصی شما کاملاً بر روی دستگاه های شما پردازش می شود و حریم شما را حفظ می کند
  • کارهای خلاقانه اساسی مانند تهیه ایمیل یا خلاصه مقالات به صورت محلی ، با زمان پاسخ فوری اتفاق می افتد
  • فقط کارهای تخصصی که واقعاً به مدل های عظیم – مانند تولید کد پیچیده یا تحقیقات علمی – نیاز به خدمات ابری دارند
  • سازمان ها مدلهای کوچک و تخصصی خود را که بر اساس داده های خود آموزش دیده اند ، حفظ می کنند و در زیرساخت های محلی کار می کنند

این علمی تخیلی نیست – تمام فناوری امروزه وجود دارد. آنچه از دست رفته تغییر ذهنیت است.

اقدام

بنابراین چه کاری می توانید انجام دهید تا بخشی از این تغییر باشید؟

  1. اولین ابزارهای AI محلی را امتحان کنید برای نیازهای شخصی و حرفه ای خود مانند Starlight
  2. به استفاده از API خود توجه داشته باشید وقتی از خدمات ابری استفاده می کنید
  3. از پروژه های هوش مصنوعی منبع باز پشتیبانی کنید که مدل ها را در دسترس تر و کارآمدتر می کنند

آینده در مورد محاسبات نامحدود نیست – این مربوط به محاسبات هوشمند است. این در مورد دانستن اینکه یک مدل محلی کافی است و چه زمانی واقعاً به چیزی قدرتمندتر احتیاج دارید.

بنابراین دفعه بعد که می خواهید آن تماس API را ارسال کنید ، از خود بپرسید: آیا می تواند به جای آن به صورت محلی اتفاق بیفتد؟ حریم خصوصی ، کیف پول و سیاره ما ممکن است از شما تشکر کند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا