برنامه نویسی

اجرای Deepseek R1 1.5b در Android با Google AI Edge

اگر علاقه مندان به هوش مصنوعی هستید که مشتاق استقرار مدل های پیشرفته مانند Deepseek R1 در دستگاه های Android هستید ، این راهنما شما را با استفاده از قابلیت های Google AI Edge Platform و ابزارهای توسعه دهنده شما را طی می کند. در اینجا نحوه دستیابی به این هدف آورده شده است:

انتخاب معماری فنی مناسب

Google AI Edge یک راه حل جامع برای استقرار هوش مصنوعی در Android ارائه می دهد:

  • بستر (قبلاً TensorFlow Lite) به عنوان زمان اصلی اجرا خدمت می کند و اجرای مدل کارآمد را ارائه می دهد.
  • رسانه برای خطوط لوله چند مدل ارکستر محوری است و از جریان داده های صاف بین عملیات مختلف AI اطمینان حاصل می کند.
  • شتاب سخت افزاری از طریق GPU/NPU به طور قابل توجهی سرعت استنباط را افزایش می دهد.

فرایند تبدیل مدل

برای استقرار Deepseek R1 در Android ، باید مدل را تبدیل کنید:

  1. تبدیل قالب: مدل Pytorch را با استفاده از ابزارهای مشعل AI Edge به Flatbuffers تبدیل کنید.
  2. میزان سازی: اندازه گیری پویا INT8 را برای کاهش اندازه مدل در حدود 75 ٪ اجرا کنید و یک مدل 1.5B را تقریباً 380 مگابایت کاهش دهید.
  3. بهینه سازی اپراتور: محاسبات مکانیسم توجه را برای معماری بازو برای تقویت عملکرد بهینه کنید.

ادغام با برنامه های Android

در اینجا قطعه ای از نحوه بارگیری مدل Litert در یک برنامه Android آورده شده است:

// Example: Loading LiteRT model in Android
val interpreter = Interpreter(
    FileUtil.loadMappedFile(context, "deepseek_r1_1.5b.tflite"),
    Interpreter.Options().apply {
        addDelegate(NnApiDelegate()) // Enable NPU acceleration
    }
)
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

تکنیک های بهینه سازی عملکرد

بعد بهینه سازی استراتژی اجرا افزایش عملکرد
مدیریت حافظه استفاده مجدد از استخر حافظه تانسور 40 ٪ کمتر از حافظه
شتاب محاسبه لایه های MOE را روی شش ضلعی DSP مستقر کنید 55 ٪ کاهش تأخیر
مصرف برق مقیاس فرکانس پویا + مدیریت قفل بیداری 30 ٪ کاهش قدرت
برش مدل بارگیری سر در بلوک ها <2s زمان شروع سرد

شیوه های توسعه

  • پردازش ورودی: برای تبدیل رشته های UTF-8 به Tensors INT32 ، یک لایه توکینر ایجاد کنید.
  • رمزگشایی خروجی: یک الگوریتم جستجوی پرتو را با نمونه گیری از P Top-P در 0.9 برای تولید بهتر متن پیاده سازی کنید.
  • رسیدگی به استثناء: محافظت از خارج از حافظه (OOM) را شامل شود ، به طور خودکار در حالت CPU تغییر دهید وقتی VRAM کافی نیست.

چالش های استقرار

  • حداقل رم 4 گیگابایتی برای عملکرد صاف مورد نیاز است.
  • در دستگاه های پایین تر ، برای حفظ حافظه ، حافظه نهان رمزگذاری موقعیت ممکن است نیاز به غیرفعال داشته باشد.
  • Snapdragon 8 Gen2 یا بالاتر برای عملکرد بهینه NPU توصیه می شود.

با ادغام خدمات Google Play ، Litert Runtime اجازه می دهد تا به روزرسانی های مدل پویا بدون تغییر نسخه برنامه. این رویکرد در دستگاه هایی با Snapdragon 8 Gen3 مورد آزمایش قرار گرفته است و به نرخ تولید توکن 18 نشانه در ثانیه رسیده است.


منابع:

بینش های اضافی:

  • ادغام هوش مصنوعی در لبه مانند این نه تنها تأخیر را کاهش می دهد بلکه با پردازش داده های محلی ، حریم خصوصی را افزایش می دهد. این می تواند یک تغییر دهنده بازی برای برنامه هایی باشد که نیاز به تعامل AI در زمان واقعی در دستگاه های تلفن همراه دارند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا