اجرای مدل Deepseek-R1 در دستگاه محلی خود

ek3nk4r 2025-01-29

0 42 خواندن این مطلب 5 دقیقه زمان میبرد

اجرای مدل Deepseek-R1 در دستگاه محلی خود

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

به یاد دارم که Deepseek یک شرکت چینی است که مدلهای مختلف هوش مصنوعی از جمله Deepseek-R1-Large-Preview را توسعه داده است. آنها برخی از مدل ها را در بغل کردن صورت از خود باز کرده اند.

ابتدا باید پیش نیازها را تشریح کنم. کاربر به Python نصب شده ، احتمالاً Python 3.8 یا بالاتر نیاز دارد. آنها به یک ویرایشگر کد مانند VS Code احتیاج دارند. از نظر سخت افزاری ، از آنجا که این یک مدل بزرگ است ، یک GPU با VRAM کافی لازم است. شاید ذکر کنید که بدون GPU ، ممکن است اما کند است. سپس ، آنها باید کتابخانه هایی مانند ترانسفورماتور ، مشعل ، شتاب و جمله را نصب کنند. اوه درست ، کتابخانه ترانسفورماتور از بغل کردن چهره برای بارگیری مدل ضروری است.

بعد ، به دست آوردن مدل. این مدل در آغوش گرفتن صورت است ، بنابراین آنها نیاز به درخواست دسترسی دارند. پس از اعطای اعطا ، آنها می توانند از Bugging Face CLI یا GIT LFS برای بارگیری آن استفاده کنند. شاید دستورات آن را ارائه دهد. همچنین ، ورود به بغل کردن صورت از CLI ممکن است مورد نیاز باشد.

سپس ، نوشتن اسکریپت پایتون. وارد کردن AutomodelforCausallm و Autotokenizer از ترانسفورماتورها. مدل را با استفاده از نام مدل بارگذاری کرده و نقشه دستگاه را برای پشتیبانی از Multi-GPU روی خودکار تنظیم کنید. آنها باید اطمینان حاصل کنند که مسیر مدل صحیح است و به جایی که آنها آن را بارگیری کرده اند اشاره می کنند.

در مثال استنتاج ، نحوه ایجاد سریع آن را نشان دهید ، آن را با پارامترهایی مانند max_new_tokens و دما ایجاد کنید. سپس نشانه ها را دوباره به متن رمزگشایی کنید. همچنین ، ذکر کنید که این مدل از فرمت chatML استفاده می کند ، بنابراین سریع باید آن ساختار را با برچسب های <| im_start |> و <| im_end |> دنبال کنید.

الزامات سخت افزاری مهم است. اندازه مدل بر استفاده از VRAM تأثیر می گذارد. برای مدل پارامتر 7B ، شاید 16 گیگابایت VRAM مورد نیاز باشد ، و برای 13B ، 24 گیگابایت. کمیت می تواند به کاهش مصرف حافظه کمک کند ، بنابراین به طور خلاصه به استفاده از بیتساندبیت ها برای کمیت 4 بیتی لمس کنید.

مسائل متداول ممکن است شامل خطاهای خارج از حافظه باشد که با استفاده از یک مدل کوچکتر یا کمیت می توان به آنها رسیدگی کرد. استنباط آهسته در CPU نکته دیگری است که باید ذکر شود. همچنین ، اطمینان از بارگیری صحیح مدل و صحیح بودن مسیر.

سرانجام ، آن را با نتیجه گیری در مورد مراحل و موارد استفاده احتمالی بپیچید. شاید یادداشتی در مورد استفاده اخلاقی و منابع محاسباتی اضافه کنید.

صبر کنید ، آیا چیزی را از دست دادم؟ اوه ، درست است ، ممکن است کاربر با بغل کردن روند دسترسی Face آشنا نباشد. باید توضیح دهد که آنها باید به صفحه مدل بروند ، روی “درخواست دسترسی” کلیک کرده و منتظر تصویب باشید. همچنین ، هنگام استفاده از GIT LFS ، آنها باید آن را نصب کنند. و در کد ، با استفاده از fevice_map = “auto” به مدل اجازه می دهد تا از GPU های موجود به طور خودکار استفاده کند. همچنین به استفاده از FP16 برای ذخیره حافظه اشاره کنید.

من باید بررسی کنم که آیا این مدل به تنظیمات توکن ساز خاص یا نشانه های خاص نیاز دارد یا خیر. مثال سریع از chatml استفاده می کند ، بنابراین صحیح است. شاید برای نتایج مختلف تنظیم دما و حداکثر نشانه ها را پیشنهاد کنید. همچنین ، تفاوت بین مدل های پایه و آموزش: اگر آنها از نسخه دستورالعمل استفاده می کنند ، باید مطابق با آن فرمت را قالب بندی کنند.

در مورد وابستگی ها چطور؟ آنها نیاز به نصب ترانسفورماتور ، مشعل ، شتاب و جمله دارند. شاید دستورات نصب PIP را مشخص کنید. همچنین ، توجه داشته باشید که در صورت استفاده از GPU ، Pytorch باید با پشتیبانی CUDA نصب شود.

عیب یابی احتمالی: در صورت بروز خطایی در مورد عدم ورود به سیستم ، آنها باید ورود به سیستم HUGGINGFACE-CLI را اجرا کنند. همچنین ، اگر مسیر مدل نادرست باشد ، فیلمنامه شکست خواهد خورد. بنابراین مطمئن شوید که مسیر صحیح است.

من فکر می کنم این نکات اصلی را در بر می گیرد. ساختار پاسخ گام به گام ، شروع از پیش نیازها ، تنظیم ، مثال کد ، یادداشت های سخت افزاری ، موضوعات مشترک و نتیجه گیری. آن را روشن و مختصر نگه دارید و از ژارگون غیر ضروری خودداری کنید.

در اینجا یک توضیح گام به گام برای اجرای مدل DeepSeek-R1-Large-Preview (یا انواع مشابه) در دستگاه محلی خود آورده شده است:

پیش نیازهای
الزامات سخت افزاری:

GPU با حداقل 16 گیگابایتی VRAM (برای مدل های پارامتر 7B) یا 24 گیگابایتی VRAM (برای مدل های پارامتر 13B).

رم کافی (32 گیگابایت+ برای مدلهای بزرگتر توصیه می شود).

درایورهای Nvidia و ابزار CUDA نصب شده (برای شتاب GPU).

الزامات نرم افزاری:

پایتون 3.8+.

Pytorch با پشتیبانی CUDA.

بغل کردن کتابخانه های صورت (ترانسفورماتور ، شتاب ، جمله).

دسترسی به مدل:

درخواست دسترسی به مدل DeepSeek-R1 در HUB HUB (Link مثال) را درخواست کنید.
(توجه: تأیید ممکن است از نویسندگان مدل مورد نیاز باشد.)

** مرحله 1: وابستگی ها را نصب کنید
** بسته های پیتون مورد نیاز را نصب کنید:

ضربه شدید
کپی کردن
ترانسفورماتورهای مشعل نصب PIP جمله را تسریع می کنند
** مرحله 2: مدل را بارگیری کنید
** پس از دسترسی به مدل در بغل کردن چهره:

گزینه 1: برای کلون کردن مخزن از GIT-LFS استفاده کنید:

ضربه شدید
کپی کردن
git lfs نصب
کلون git https://huggingface.co/deepseek-ai/deepseek-r1-large-preview
گزینه 2: مدل را مستقیماً از طریق API Face Bugging بارگذاری کنید (نیاز به تأیید اعتبار دارد):

پیتون
کپی کردن
از ترانسفورماتور واردات AutomodelforCausallm ، AutoTokenizer

model_name = “DeepSeek-AI/DeepSeek-R1-Large-Preview”
tokenizer = autoTokenizer.from_pretrained (model_name)
model = automodelforcausallm.from_pretrained (model_name ، device_map = “auto”)
** مرحله 3: کد استنتاج را بنویسید
** برای بارگیری مدل و تولید متن ، یک اسکریپت پایتون (به عنوان مثال ، deepseek_inference.py) ایجاد کنید:

پیتون
کپی کردن
از ترانسفورماتور واردات AutomodelforCausallm ، AutoTokenizer

Model_Path = “DeepSeek-R1-Large-Preview” # مسیر به مدل محلی یا بغل کردن شناسه صورت
tokenizer = autoTokenizer.from_pretrained (model_path)
مدل = automodelforcausallm.from_pretrained (
path_path ،
دستگاه_مپ = “خودکار” ، # GPU/CPU انتخاب خودکار
torch_dtype = “خودکار” ، # به طور خودکار FP16/FP32 را انتخاب کنید
)

ورودی = Tokenizer (سریع ، Return_tensors = “PT”). to (model.device)

outputs = model.generate (
** ورودی ها ،
max_new_tokens = 256 ،
دما = 0.7 ،
do_sample = درست ،
)

پاسخ = tokenizer.decode (خروجی ها[0]، skip_special_tokens = false)
چاپ (پاسخ)
یادداشت های کلیدی
قالب مدل:

مدل DeepSeek-R1 از فرمت chatml برای اعلان ها استفاده می کند. برای ساختار ورودی خود از <| im_start |>> و <| im_end |> استفاده کنید (شبیه به chatml OpenAi).

مثال سریع:

استفاده از VRAM را با بارگیری مدل در حالت 4 بیتی یا 8 بیتی کاهش دهید:

پیتون
کپی کردن
مدل = automodelforcausallm.from_pretrained (
path_path ،
load_in_4bit = درست ، # نیاز دارد bitsandbytes کتابخانه
دستگاه_مپ = “خودکار” ،
)
نکات مربوط به عملکرد:

برای استنتاج سریعتر از FP16 Precision استفاده کنید: TORCH_DTYPE = TORCH.FLOAT16.

max_new_tokens را برای کنترل طول پاسخ تنظیم کنید.

خطاهای رایج و رفع
خطاهای خارج از حافظه (OOM):

max_new_tokens را کاهش دهید.

از Quantization (Load_in_4bit = true) استفاده کنید.

سخت افزار GPU خود را ارتقا دهید.

مدل یافت نشد:

اطمینان حاصل کنید که مدل را به صورت محلی بارگیری کرده اید یا به مخزن صورت بغل دسترسی دارید.

خطاهای CUDA:

سازگاری CUDA و Pytorch را تأیید کنید.

مجدداً Pytorch را با پشتیبانی CUDA نصب کنید: PIP3 Torchvision Torchaudio را نصب کنید-Index-Url https://download.pytorch.org/whl/cu121.

مثال استفاده از موارد
تولید کد: تنظیم دقیق برای کارهای برنامه نویسی.

برنامه های چت: به عنوان یک چت بابات محلی مستقر شوید.

تحقیق: آزمایش با تکنیک های تراز یا رفتار مدل.

ملاحظات اخلاقی
اطمینان از انطباق با مجوز مدل (کارت مدل Face Model) را بررسی کنید).

از سوء استفاده برای اهداف مضر یا غیر اخلاقی خودداری کنید.

با دنبال کردن این مراحل ، می توانید DeepSeek-R1 را به صورت محلی برای تحقیق یا توسعه اجرا کنید. پارامترها را بر اساس سخت افزار خود تنظیم کنید و از مورد استفاده کنید!

ek3nk4r 2025-01-29

0 42 خواندن این مطلب 5 دقیقه زمان میبرد