درک پس زمینه در پشت LLMS (هیچ سردرد درگیر نیست)

پس از خواندن این پست وبلاگ ، هر گونه ترس از LLMS وجود دارد. تمام آنچه شما نیاز دارید یک ذهن کنجکاو و کمی تمرکز است – هیچ دانش پیشرفته ای از یادگیری ماشین یا هوش مصنوعی لازم است! در این مقاله ، مفاهیم پشت مدل های بزرگ زبان را به روشی ساده تجزیه می کنیم و حتی چگونگی ساخت آنها از زمین به بالا را کشف خواهیم کرد. بیایید شروع کنیم
LLMS چیست
به عبارت ساده ، مدل های بزرگ زبان – LLMS – سیستم هوش مصنوعی هوشمند هستند که می توانند مانند یک انسان متن را بخوانند ، درک کنند و حتی بنویسند. آنها از مقادیر زیادی از داده ها با استفاده از نوعی فناوری به نام شبکه های عصبی یاد می گیرند.
Soul of LLM ها شبکه های عصبی هستند که سیستم های رایانه ای با الهام از نحوه کار مغز ما هستند. به یک شبکه عصبی به عنوان یک سری لایه های بهم پیوسته فکر کنید ، جایی که هر لایه از واحدهای کوچک به نام نورون تشکیل شده است. این سلولهای عصبی برای پردازش اطلاعات با هم کار می کنند.
هنگامی که داده ها را مانند متن یا تصاویر وارد می کنید ، هر نورون آن اطلاعات را می گیرد ، اهمیت (یا وزن) را برای آن به کار می برد و آن را به لایه بعدی می فرستد. با حرکت داده ها از طریق لایه ها ، شبکه می آموزد که الگوهای را بشناسد و تصمیم گیری کند. این فرایند از طریق یک حلقه بازخورد آموزش می یابد – با نشان دادن پاسخ های صحیح مدل و تنظیم وزن برای کاهش خطاها. این تبار شیب است ، و اینگونه است که جادو اتفاق می افتد. به زبان ساده ، شبکه های عصبی مانند تیمی از حل کننده های مشکل هستند که برای درک و تولید اطلاعات با هم همکاری می کنند.
به این فکر کنید مانند آموزش کودک برای تشخیص کلمات و جملات با نشان دادن نمونه های بی شماری. با گذشت زمان ، کودک یاد می گیرد که زمینه ، گرامر و حتی تفاوت های ظریف را به معنای معنا درک کند. به طور مشابه ، LLM ها در کارهای زبان مهارت بیشتری پیدا می کنند زیرا در معرض داده های بیشتر قرار می گیرند.
ترانسفورماتور
شما ممکن است با یک هوش مصنوعی اساسی ، مانند یک شبکه عصبی ساده که حرف یا کلمه بعدی را پیش بینی می کند ، آزمایش کرده باشید. اما چگونه می توانیم از آن به Chatgpt ، یا Claude ، یا BARD – مدل هایی که می توانند مقاله بنویسند ، به سؤالات پاسخ دهند ، کد شما را اشکال بزنند ، و به صدا درآمده؟
پاسخ این است: ترانسفورماتور.
اگر یک شبکه عصبی اساسی مانند ماشین حساب جیب است – در حال ورود به ورودی های کوچک و پاسخ دادن به آنها – ترانسفورماتور مانند یک صفحه گسترده سوپاپ است که دارای فرمول های پیشرفته ، ماکرو و اتوماسیون است. این فقط اعداد را خرد نمی کند بلکه زمینه ، دنباله و روابط را به شکلی درک می کند که هیچ مدل قبلی نمی تواند.
بیایید سس مخفی را که ترانسفورماتورها را بسیار قدرتمند می کند ، کاوش کنیم. و نگران نباشید – ما چیزهای فانتزی را رمزگشایی می کنیم و همه آن را به شهود روزمره می پیوندیم.
1. قدرت تمرکز: خود توجه
تصور کنید که این جمله را می خوانید:
“دختر به سگ خود معالجه داد.”
وقتی به کلمه رسیدید “او”، مغز شما به طور خودکار آن را به آن پیوند می دهد “دختر”بشر شما حتی به آن فکر نکردید. این همان چیزی است که ما صدا می کنیم درک متنبشر
ترانسفورماتورها سعی می کنند کاری بسیار مشابه انجام دهند. آنها نگاه می کنند همه کلمات در یک جمله و تصمیم بگیرید که کدام یک از آنها مهمترین است برای درک کلمه فعلیبشر
بیایید بگوییم که این مدل در تلاش است تا بفهمد چه چیزی “او” اشاره به این جمله “توجه” را به ویژه در این جمله – به ویژه ” “دختر”بشر کلماتی که اهمیت بیشتری دارند بیشتر مورد توجه قرار می گیرند. دیگران ، مانند “A” یا “”، به آرامی نادیده گرفته می شوند.
این توانایی برای اسکن کل جمله و تصمیم گیری در مورد آنچه مرتبط است خودداری– اما صادقانه ، شما فقط می توانید به آن فکر کنید خواندن متمرکزبشر
2. سریع فکر کنید: پردازش موازی
آن مدل های AI قدیمی را که متن یک کلمه را به طور همزمان می خوانند ، مانند یک ماشین تحریر فوق العاده به یاد داشته باشید؟ آنها RNN نامیده می شدند و در حالی که کار می کردند ، دردناک آهسته و فراموشی بودند.
ترانسفورماتورها گفتند ، “چرا وقتی می توانید کل جمله را یکباره بخوانید ، کلمه به کلمه بخوانید؟”
بنابراین به جای اینکه به آرامی از طریق متن خزید ، ترانسفورماتورها همه آن را به طور همزمان به هم می زنند – مانند این که مغز شما چگونه می تواند یک پاراگراف کامل را اسکن کند و فوراً از آن استفاده کند.
این توانایی دیدن همه چیز با هم چیزی است که ترانسفورماتورها را ایجاد می کند سریعبا کارآمد، و مناسب برای سخت افزار مدرن مانند GPU. لازم نیست این اصطلاح را به خاطر بسپارید پردازش موازیفقط بدانید که این مانند خواندن با هر دو چشم است که به جای اینکه یک کلمه را نگاه کنید باز است.
3. صحبت کردن به زبان مدل: نشانه ها و تعبیه ها
در اینجا گرفتن: ترانسفورماتورها متن را درک نمی کنند. حتی کمی
آنها فقط با شماره صحبت می کنند. بنابراین چگونه می توانیم کلمات را به آنها بیاموزیم؟
اول ، ما کلمات را به قسمت های کوچکتر بشکنید، فراخوانده شده توکنبشر اینها ممکن است کامل کلمات ، تکه های کلمات یا حتی فقط حروف باشد – هرچه بیشترین حس را داشته باشد.
سپس ، ما هر نشانه را به لیست اعداد تبدیل کنیدبشر این لیست نشان دهنده معنای این است که به معنای یک اثر انگشت منحصر به فرد برای کلمه است “گربه”، یا “اجرا”، یا حتی “xyz”بشر این اثر انگشت خوانده می شود تعبیهبشر
بنابراین وقتی مدل را تغذیه می کنید کلمه “سیب”، آنچه در واقع می بیند یک ردیف اعداد است ، مانند [0.2, -0.5, 1.3, …]
بشر و هر کلمه یا نشانه ردیف منحصر به فرد خود را می گیرد.
تمام این جادوی تبدیل متن به اعداد؟ این فقط تبدیل کلمات به چیزی که مدل می تواند درک کندبشر
4. ساختمان مغز: لایه ها روی لایه ها
حالا قسمت جالب می آید.
هنگامی که متن شما به اعداد تبدیل شد ، ترانسفورماتور شروع به پردازش آن می کند لایه– لایه ها و لایه های زیادی. هر لایه شغل دارد:
- یک لایه ممکن است توجه توجه برای درک آنچه در جمله مهم است
- یک قدرت دیگر اطلاعات را پاک کنید بنابراین کار با آن ساده تر است (ما این عادی سازی را می نامیم)
- یک سوم ممکن است اطلاعات اصلی را به داخل اضافه کنید برای جلوگیری از از بین رفتن آن در طول راه (به نام اتصالات باقیمانده)
و سپس تکرار می شود.
این مدل اطلاعات را از طریق لایه بعد از لایه منتقل می کند و در هر مرحله باهوش تر می شود – مانند شخصی که دوباره و دوباره جمله را می خواند ، هر بار که ظرافت بیشتری را بدست می آورد.
در پایان این فرآیند ، مدل فقط به کلمه نگاه نمی کند “سیب”– می داند منظور شما از میوه ، شرکت یا رنگ تلفن خود است.
بنابراین واقعاً ترانسفورماتور چیست؟
بیایید همه آن را کنار هم قرار دهیم ، بدون آنکه فنی صحبت کنیم:
- من همه چیز را یکباره می خواند، نه کلمه به کلمه
- من روی مهمترین قسمت ها تمرکز دارد از یک جمله
- من معنای پشت کلمات را می فهمد، نه فقط خود کلمات
- من درک خود را در لایه ها ایجاد می کند، بهتر می شود
و این واقعاً همان چیزی است که ترانسفورماتورها را بسیار خاص می کند.
اگر تا به حال کسی را شنیدید “خودآگاهی” یا “رمزگذاری مثبت” یا “معماری چند سر”، فقط این را به یاد داشته باشید:
“آه بله ، این ترفند ساده ای است که مدل از آن استفاده می کند تا بفهمد چه چیزی مهم است ، چیزها در کجا هستند و چگونه می توان همه را حس کرد.”
مرحله ساخت: ترانسفورماتور خود را مهندسی کنید
ترانسفورماتور خود را به عنوان یک سرآشپز در آشپزخانه تصور کنید. درست مانند مادر شما مواد اولیه (مانند متن) را می گیرد و آنها را به طرز ماهرانه ای به وعده های غذایی خوشمزه تبدیل می کند ، یک ترانسفورماتور اطلاعات را به روش های هوشمندانه پردازش می کند تا چیزی معنی دار ایجاد کند – خواه یک جمله کامل باشد ، یک قطعه کد یا حتی یک شعر زیبا.
در اینجا کاری که هر مؤلفه به صورت ساده انجام می دهد آورده شده است:
1. Tokenizer: خرد کردن زبان به تکه های اندازه نیش
قبل از اینکه مدل بتواند در مورد یک جمله “فکر” کند ، باید آن را به قسمت هایی که می تواند درک کند ، تجزیه کند. این کار Tokenizer است.
به جای تغذیه کامل کلمات یا حروف ، متن را به داخل می شکنیم قطعات زیرزمینیقطعاتی مانند “ترانس” ، “فرم” و “ERS”. چرا؟ زیرا این به مدل کمک می کند:
- کلمات ناشناخته را توسط قطعات آنها درک کنید (مانند فهمیدن “ترانسفورماتور” حتی اگر هرگز آن را ندیده است)
- واژگان خود را قابل کنترل نگه دارید (نیازی به یادآوری هر کلمه در زبان انگلیسی نیست) شما مدل را می دهید:> “من در حال یادگیری ترانسفورماتورها هستم.”
و ممکن است آن را به زیر تقسیم کند:
[“I”, “’m”, “learn”, “ing”, “transform”, “ers”, “.”]
این مرحله فقط خرد کردن مواد شما قبل از پخت و پز است. در Tech Speak ، ما این را صدا می کنیم نشانه گذاری
2. لایه جاسازی: تبدیل کلمات به اعداد
اکنون که قطعات توکن خود را به دست آورده ایم ، باید آنها را به چیزی تبدیل کنیم که مدل در واقع می تواند محاسبه کند: اعداد.
لایه جاسازی شده اختصاص می دهد هر یک از یک اثر انگشت منحصر به فرد، متشکل از ده ها (یا صدها) شماره. اینها فقط مقادیر تصادفی نیستند – آنها ویژگی های ظریف مانند:
- معنای کلمه چیست
- چگونه استفاده می شود
- ارتباط آن با کلمات دیگر
بنابراین کلمه “پادشاه” وت “ملکه” ممکن است تعبیهات بسیار مشابهی داشته باشد ، فقط برای جنسیت کمی تنظیم شده است. این روش مدل “درک” معنی بدون استفاده از تعاریف واقعی است.
از نظر ساده: اینگونه است که ما زبان انسانی را به چیزی ترجمه می کنیم که ریاضی بتواند از آن استفاده کند.
3. رمزگذاری موقعیتی: به یاد آوردن سفارش کلمه
در اینجا یک چیز عجیب است: ترانسفورماتورها به طور طبیعی ترتیب سخنان شما را نمی دانند.
اگر آن را بدهید “گربه روی تشک نشست”، فقط ممکن است یک کیسه از کلمات را ببیند: [cat, mat, the, sat, on, the]بشر این یک مشکل است موقعیت هر کلمه مهم است!
رمزگذاری موضعی این مسئله را با افزودن کمی طعم به تعبیه هر نشانه حل می کند – مانند برچسب زدن آن با موقعیت خود در جمله. مثل گفتن:
- این است اولی کلام
- این است دوم
- این یکی آمد آخرین
به این ترتیب ، مدل این را می داند “گربه روی تشک نشست” متفاوت از “مات روی گربه نشست” (که یک داستان بسیار متفاوت خواهد بود!).
4. خود توجه چند سر: تفکر با محوریت لیزر
این ابرقدرت ترانسفورماتور است. هنگام تلاش برای درک یک کلمه ، مدل فقط در انزوا به آن نگاه نمی کند. به نظر می رسد در هر کلمه دیگری در جمله برای تصمیم گیری مهمترین چیز
بگویید که این جمله را پردازش می کنید:
“سگ به دلیل گرسنگی پارس کرد.”
چه می کند “آن” مراجعه به؟ مدل باید به عقب نگاه کند “سگ” و درک کنید که این ستاره جمله است.
خودآگاهی مانند دادن یک جفت عینک با قدرت بالا است-می تواند کلمات مهم را بزرگنمایی کند ، حتی اگر در این جمله دور باشند.
وت چند سر فقط به این معنی است که مدل می پوشد عینک متعدد به طور همزمان، هر کدام روی یک چیز متفاوت تمرکز می کنند: موضوع ، لحن ، دستور زبان و غیره
لازم نیست این اصطلاح را به خاطر بسپارید خودداری چند سربشر فقط به آن فکر کنید روش مدل برای تصمیم گیری در هنگام خواندن به چه چیزی باید توجه کنیدبشر
5. شبکه تغذیه رو به جلو: تفکر عمیق تر در اینجا اتفاق می افتد
پس از توجه تصمیم می گیرد که روی چه چیزی تمرکز کند ، مدل آن اطلاعات را از طریق یک مغز کوچک اجرا می کند – مجموعه ای ساده از محاسبات که معنی را مخلوط ، تبدیل و اصلاح می کند.
اینجاست که مدل چیزهایی مانند:
- “گربه” و “بچه گربه” مرتبط هستند
- “پوست” می تواند به معنای صدا یا درخت باشد (بسته به متن)
- “Run Code” با “رفتن برای اجرای” بسیار متفاوت است
این لایه پیچیدگی و عمق را به درک مدل می افزاید. از نظر فنی ، ما این را a می نامیم شبکه فیدر، اما شما می توانید به آن فکر کنید مرحله استدلال عمیق تربشر
6. عادی سازی لایه + اتصالات باقیمانده: نگه داشتن آن همه متعادل
وقتی در حال پختن چیزی پیچیده هستید ، باید اغلب اوقات هم بزنید و هرچه می روید طعم دهید، یا ممکن است طعم دهنده ها گم شوند ، یا بدتر از آن – سوختگی!
این همان کاری است که این دو مؤلفه انجام می دهند:
- اتصالات باقیمانده مواد اصلی را بگیرید و آنها را دوباره مخلوط کنید ، بنابراین مدل فراموش نمی کند که از چه چیزی شروع شده است
- عادی سازی اطمینان حاصل می کند که اعداد برای پردازش خیلی بزرگ ، خیلی کوچک یا خیلی عجیب نیستند
این به مدل کمک می کند تا بهتر یاد بگیرد ، پایدار بماند و تصویر بزرگ را فراموش نکنیدبشر شما فقط می توانید به آن فکر کنید نگه داشتن همه چیز متعادل و یکدستبشر
7. رمزگشایی (برای تولید خروجی)
اکنون که این مدل ورودی شما را پردازش کرده است ، ما می خواهیم این چیزی را به عقب برگرداند.
اینجاست رمز وارد می شود. تمام افکار داخلی مدل را می گیرد و تولید می کند نشانه بعدی، یک قطعه در یک زمان ، تا زمانی که یک جمله کامل را تشکیل دهد.
به عنوان مثال ، این عبارت را به آن بدهید:
“روزی”
و ممکن است کامل شود:
“زمان ، اژدها وجود داشت …”
این کار را با پیش بینی احتمالاً معکوس بعدی ، سپس یکی پس از آن و غیره انجام می دهد.
این همان چیزی است که ما صدا می کنیم تولید زبانیبشر
لازم نیست همه چیز را از ابتدا بسازید
خبر خوب؟ نیازی به کدگذاری تمام این قسمت ها با دست نیست.
کتابخانه ها دوست دارند پیتورچ وت تانسور پر با نسخه های پلاگین و بازی از هر یک از این بلوک ها همراه باشید. این مانند ساخت با لگو به جای حک کردن بلوک از سنگ است.
شما فقط باید بدانید آنچه هر قطعه انجام می دهد، چگونه آنها را به هم وصل کنیم ، و چگونه می توان کل تنظیمات را آموزش داد.
تغذیه LLM: درمان داده
در اینجا یک بررسی واقعیت وجود دارد:
مهم نیست که چقدر مدل شما فانتزی است ، چیزی هوشمندانه نمی گوید مگر اینکه چیزی هوشمندانه دیده شود.
مانند یک دانش آموز به مدل زبان بزرگ (LLM) خود فکر کنید. یک مورد بسیار ، بسیار مشتاق. این با دانش داخلی همراه نیست-کاملاً از آنچه شما نشان می دهید یاد می گیرد. بنابراین اگر آن را روی سطل زباله آموزش دهید ، سطل زباله را تف می کند. اگر آن را بر روی طلا آموزش دهید ، خوب … پس جادو می کنید.
این امر باعث می شود که داده های مهمترین قسمت ساخت یک LLM باشد.
به چه نوع داده ای نیاز دارد؟
برای صحبت کردن مانند یک انسان ، مدل شما باید مانند یک انسان بخواند. این بدان معناست که باید مقدار زیادی از مطالب نوشتاری را بلعید – هر چیزی که نشان دهنده نحوه استفاده ما در دنیای واقعی است.
ما صحبت می کنیم:
- کتاب ها-داستان ، غیر داستانی ، کلاسیک ، رمان های مبهم و مبهم-این همه ارزشمند است
- ویکی پدیا-دانش عمومی ، ساختار یافته
- مقالات دانشگاهی – برای لحن رسمی و ایده های پیچیده
- مکالمات – گفتگو به مدل کمک می کند تا چگونه مردم در واقع صحبت کنند
- کد – بله ، حتی زبانهای برنامه نویسی بخشی از رژیم غذایی هستند!
- مقالات و وبلاگ ها – نظرات متنوع ، تن و سبک نوشتن
ایده این است که به مدل بوفه ای از زبان انسانی بدهد تا بتواند نه تنها واژگان ، بلکه گرامر ، ظرافت ، احساسات ، زمینه و منطق را یاد بگیرد.
اما فقط به آن غذا ندهید …
درست همانطور که اجازه نمی دهید کودک با یک جعبه از قطعات پازل ناسازگار بازی کند و از آنها انتظار داشته باشد که یک تصویر زیبا را تکمیل کند ، نباید مدل خود را با یک محتوای اینترنت فیلتر نشده ارائه دهید. درست مانند یک پازل کامل به قطعات مناسب نیاز دارد تا در کنار هم قرار بگیرند ، مدل شما برای ایجاد خروجی های منسجم و معنی دار به داده های با کیفیت بالا و مرتبط نیاز دارد.
در اینجا مراحل کلیدی برای تمیز کردن داده های خود در نقاط مختصر آورده شده است:
- دقت: صحت واقعی را تأیید کنید.
- قالب بندی: نمادها و علامت های غیرمعمول را حذف کنید.
- تعصب و گفتار مضر: محتوای توهین آمیز یا گمراه کننده را از بین ببرید.
- تکذیب: برای جلوگیری از تعصب ، ورودی های تکراری را حذف کنید.
- حریم خصوصی: اطلاعات حساس مانند شناسه های شخصی را حذف کنید.
چقدر داده صحبت می کنیم؟
بیایید همه چیز را به چشم انداز کنیم.
تعداد مدل داده های آموزش پارامترها (نشانه ها)
GPT-3 175 میلیارد ~ 0.5 تریلیون توکن
Llama 2 70 میلیارد ~ 2 تریلیون نشانه
Falcon 180 میلیارد ~ 3.5 تریلیون نشانه
یادآوری:
1 توکن ≈ یک کلمه
100000 توکن ≈ یک رمان کامل
بنابراین GPT-3 معادل 5 میلیون رمان را در طول آموزش خواند.
اما وحشت نکنید – لازم نیست که این بزرگ را شروع کنید. شما می توانید یک مدل کوچکتر با پارامترهای کمتری و مقدار متوسط داده ایجاد کنید. به این فکر کنید مانند آموزش یک دانش آموز برای یک رقابت محلی به جای المپیک.
کوچک شروع کنید. سریع یاد بگیرید مقیاس عاقلانه
هنگامی که تمام این داده ها را جمع می کنید ، بخشی از آن را برای ارزیابی کنار بگذارید – امتحان نهایی برای مدل خود.
اگر مدل را در همان چیزهایی که آن را آموزش داده اید آزمایش کنید ، مانند بررسی پاسخ ها با نگاه کردن به کلید است. برای اینکه واقعاً بدانید که آیا این یادگیری است ، باید آن را بر روی نمونه های جدید و غیب آزمایش کنید. اینگونه است که می دانید می تواند تعمیم یابد ، نه فقط به خاطر سپرده شود.
TL ؛ DR – قوانین طلایی در زمینه درمان داده ها
کیفیت> کمیت (اما بله ، مقدار نیز اهمیت دارد)
Variety King است: شامل تن ، سبک ، دامنه ها
داده های خود را مانند آماده کردن مواد تشکیل دهنده برای یک وعده غذایی لذیذ تمیز کنید
برخی از آنها را برای آزمایش ذخیره کنید تا بتوانید پیشرفت واقعی را اندازه گیری کنید
در صورت لزوم کوچک را شروع کنید – در صورت آماده بودن مقیاس
و اینگونه است که شما مدل زبان خود را تغذیه می کنید. این کار پر زرق و برق نیست ، اما این پایه و اساس همه چیز بعدی است.
آموزش: جایی که جادو گران می شود
بنابراین ، شما ترانسفورماتور خود را ساخته اید. براق است ، پیچیده است ، برای دانش گرسنه است. اکنون بخشی از آن می آید که در آن قرار دارد در واقع یاد می گیردو هشدار اسپویلر: اینجاست که همه چیز شدید می شود.
آموزش LLM مانند ارسال مدل خود به مدرسه است … به جز کلاس ها هرگز متوقف نمی شوند ، امتحانات وحشیانه است و شهریه در آن پرداخت می شود ساعت GPU و برقبشر
بیایید آن را تجزیه کنیم.
چرخه یادگیری دو قسمتی
آموزش یک مدل به دو مرحله بزرگ ، بارها و بارها تکرار می شود:
1. پاس رو به جلو – حدس زدن
این مدل برخی از داده ها را می گیرد – جمله ای مانند:
“خورشید در … طلوع می کند …”
سپس سعی می کند کلمه بعدی را حدس بزند. شاید گفته شود:
“هویج” 🙃
خوب ، عالی نیست اما اشکالی ندارد – هنوز هم یاد می گیرد.
2. پاس به عقب – یادگیری از اشتباهات
اینجا جایی است که رشد واقعی اتفاق می افتد.
مدل حدس خود را (“هویج”) با پاسخ صحیح (“شرق”) مقایسه می کند و محاسبه می کند چقدر اشتباه بود این شکاف نامیده می شود ضرربشر
سپس ، از طریق منطق خود به عقب کار می کند ، و میلیون ها نفر (یا میلیارد ها) از شماره گیری های کوچک را تنظیم می کند – پارامترها– دفعه بعد حدس بهتر می شود.
این عقب و جلو ادامه دارد:
- بیش از دسته (گروه های کوچک از داده ها)
- از طریق دوره (عبور کامل از طریق مجموعه داده)
- و دور تکرار (هر مرحله تمرینی)
این مانند اختصاصی ترین دانش آموز جهان است که با سرعت رعد و برق – میلیون هاون بار مرتکب مرتکب مرتبا می شود.
اما این ارزان نیست
آموزش LLMS مدرن فقط مالیات ذهنی برای این مدل نیست – این یک هیولا منبع است. شما نیاز دارید:
- GPU های سطح بالا (ترجیحاً بیش از یک)
- تن حافظه (RAM ، VRAM و ذخیره سریع)
- صبر (مگر اینکه اعتبار ابر را بسوزانید)
بنابراین مردم چگونه این کار را در مقیاس مدیریت می کنند؟ تکنیک های هوشمند:
تقویت کننده های کارآیی
موازی سازی
کار آموزش را به تکه ها بشکنید و همزمان آنها را بر روی چندین GPU اجرا کنید. این مانند ساختن خانه با تیم به جای انجام این کار انفرادی است.
بازرسی شیب
به جای یادآوری همه چیز در حین آموزش (که حافظه را می خورد) ، مدل “پاسگاه ها” را ذخیره می کند و بعداً قسمت های لازم را محاسبه می کند. این یک تجارت هوشمندانه است: حافظه کمتر، کمی محاسبات بیشتربشر
تنظیم بیش از حد پارامتری
این تنظیماتی است که نحوه یادگیری مدل را راهنمایی می کند. فکر کنید:
- اندازه دسته – چند نمونه برای یادگیری یکباره
- میزان یادگیری – چقدر تهاجمی برای به روزرسانی دانش خود
- میزان ترک تحصیل – هر چند وقت یک بار چیزها را فراموش می کنید تا از بیش از حد جلوگیری کنید
این تنظیمات را به درستی بدست آورید و آموزش سریعتر ، ارزان تر و مؤثرتر می شود. آنها را اشتباه بگیرید ، و مدل شما ممکن است چیزی یاد بگیرد – یا مجموعه داده خود را مانند طوطی به خاطر بسپارید.
در آموزش متوقف نشوید: مناسب برای دامنه خود
هنگامی که مدل شما “انگلیسی عمومی” (یا به هر زبانی که آن را آموزش داده اید) صحبت کنید ، وقت آن رسیده است به آن یک تخصص بدهیدبشر
به این گفته می شود تنظیم دقیق، و اینگونه است که شما یک ژنرالیست را به یک متخصص تبدیل می کنید.
بیایید بگوییم شما مدلی را برای درک زبان اساسی آموزش داده اید ، اما شما آن را می خواهید:
- به سوالات حقوقی پاسخ دهید
- نمایش داده های SQL را بنویسید
- تشخیص علائم پزشکی
- چت های خدمات مشتری را اداره کنید
- کد را به یک زبان خاص تولید کنید نه باید دوباره از ابتدا شروع کنید. شما فقط با هم تنظیم کردن این-آن را از طاقچه شما تهیه کرده و اجازه دهید دوباره با یک لنز متمرکز دوباره یاد بگیرد.
مدل از قبل می داند چگونه برای خواندن ، نوشتن و عقل. اکنون ، شما فقط آن را آموزش می دهید آنچه مهم است در دامنه شما
این مانند استخدام کارورزان هوشمند و دادن چند هفته آموزش در محل کار است. به زودی ، آنها به زبان شما صحبت می کنند ، از شرایط شما استفاده می کنند و مانند یک حرفه ای وظایف خود را انجام می دهند.
tl ؛ dr – چه چیزی را به خاطر بسپار
- آموزش مرحله ای است که مدل از ابتدا می آموزد. این گران ، آهسته و محاسبات سنگین است اما ضروری است.
- شما تکرار می کنید پاس (حدس زدن) و پاس عقب (یادگیری) تا زمانی که مدل شما خوب نشود.
- از ابزارهای هوشمند مانند استفاده کنید موازی سازیبا بازرسی شیبوت تنظیم بیش از حد پارامتری برای مدیریت هزینه ها و پیچیدگی.
- پس از آموزش ، متوقف نشو –با هم تنظیم کردن مدل شما برای تخصص آن برای نیازهای واقعی شما.
کاملا در اینجا یک نسخه اصلاح شده ، صیقلی و دوستانه از انسان وجود دارد افکار پایانی، گسترش یافته برای شامل مشاوره واقع بینانه برای کسانی که منابع محدود دارند این یک دیدگاه صادقانه را در حالی که روح تشویق را زنده نگه می دارد ، می دهد – به علاوه این شامل “حداقل تنظیم” عملی برای شروع با مدلهای کوچکتر مانند minGPT
بشر
افکار پایانی
ساختن یک مدل بزرگ زبان (LLM) از ابتدا یک حرکت جسورانه است.
این مانند ساخت موتور ماشین از فلز خام است. شما نمی کنید نیاز برای انجام این کار – تعداد زیادی از موتورهای بزرگ از قبل وجود دارد – اما اگر این کار را انجام دهید ، می دانید دقیقاً چگونه کار می کند ، قطعه به قطعه. و آن نوع دانش؟ این قدرتمند است
آیا شما:
- یک دانش آموز AI با انجام کار (و نه فقط تماشای آموزش)
- یک استارتاپ به دنبال ساختن یک مدل خاص و خاص دامنه
- یا فقط یک ذهن کنجکاو که عاشق حفر عمیق در چگونگی تیک زدن اوضاع است
… ساختن LLM خود شما است اکنون بیشتر از هر زمان دیگری ممکن استبشر
از شیرجه شدن در؟
اگر قصد دارید حتی یک LLM اساسی را از ابتدا بسازید ، در اینجا “بسته استارت” شما وجود دارد:
مهارت های اصلی
- پیتون: زبان انتخاب تقریباً برای همه پروژه های ML
- اعماق: برای کار با آرایه ها و ماتریس ها
- Pytorch یا Tensorflow: برای ساخت و آموزش شبکه های عصبی
- درک اساسی از:
- بردارها ، ماتریس ها ، شیب (ریاضیات مدرسه راهنمایی + شهود!)
- شبکه های عصبی چگونه کار می کنند
ابزار و منابع
- بوها نشان دهنده (مانند رمزگذاری جفت بایت یا جمله)
- کوچک ، تمیز مجموعه داده (برای شروع به 2 تریلیون نشانه نیازی ندارید)
- محاسبه اساسی: دسترسی به a گرافیکی تک (NVIDIA GTX 1660+ یا هر GPU ابر مانند Google Colab یا Labda Labs)
طرز فکر
- صبر: آموزش حتی مدلهای کوچک زمان می برد.
- کنجکاوی: شما به اشکالات گیج کننده ضربه می زنید – آنها را به عنوان لحظه های یادگیری برآورده می کنید.
- تداوم: شما اراده می خواهم تسلیم شوم نکن
آیا به دنبال پایین نگه داشتن هزینه ها هستید؟
برای شروع سفر LLM خود نیازی به ابر رایانه ندارید.
بسیاری از مبتدیان استفاده می کنند مدل های ترانسفورماتور ریز برای یادگیری اصول-مدل های شما می توانید در یک لپ تاپ یا پردازنده گرافیکی ابر آزاد آموزش دهید.
در اینجا یک نقطه شروع عالی وجود دارد:
🔹 minGPT
توسط آندره کارپتی
- بازپرداخت حداقل و آموزشی GPT
- نوشته شده در pytorch تمیز و ساده
- می توانید آن را آموزش دهید مجموعه داده های کوچک مانند شکسپیر یا قطعه کد پایتون
- می تواند اجرا شود یک پردازنده گرافیکی با VRAM 4-8 گیگابایتی
- به شما کمک می کند تا نشانه گذاری ، توجه ، تعبیه ها ، عملکردهای از دست دادن و حلقه های آموزش-بدون پیچیدگی مدل های در مقیاس میلیارد
سیستم توصیه شده برای Mingpt:
- CPU: هر پردازنده مدرن چند هسته ای (I5/I7 یا Ryzen 5/7)
- RAM: حداقل 8-16 گیگابایت
- GPU: GTX 1660 TI ، RTX 3060 یا بهتر – یا Google Colab با Tesla T4 رایگان (یا ردیف پرداخت شده برای سریعتر A100/V100)
سایر مدل های استارت برای کشف:
- نانوت – بازنویسی مدرن از ترکیب با رعد و برق Pytorch و حلقه های آموزش بهتر
- استستانهای کوچک -LLM های کوچک آموزش دیده بر روی داستان های دوستانه کودک ، طراحی شده برای اجرای یک پردازنده گرافیکی واحد
- تقطیر کردن یا gpt-neo mini -مدل های کوچک پیش ساخته شما می توانید ارزان قیمت تنظیم کنید
بنابراین … آیا ارزش آن را دارد؟
اگر بعد از عملکرد خام یا برنامه های در مقیاس تجاری هستید ، احتمالاً بهتر است تنظیم دقیق یک مدل موجودبشر
اما اگر هدف شما باشد درکبا یادگیریبا خلوت، یا سفارشی سازی، پس بله –کاملاً ارزشش را داردبشر
شما نه تنها در مورد یکی از تحول ترین فن آوری های زمان ما بینش می گیرید ، بلکه خود را نیز قادر خواهید بود تا نوآوری ، سازگاری و حتی آنچه را که قبلاً در آنجا وجود دارد ، به چالش بکشید.
افکار نهایی
- شما به مرکز داده احتیاج ندارید برای شروع
- شما به دکترا احتیاج ندارید برای درک نحوه کار این
- شما فقط به کنجکاوی ، یک پردازنده گرافیکی مناسب و تمایل به یادگیری نیاز دارید
آیا شما آماده ساخت مغز خود هستید؟
چون اکنون … شما واقعاً می توانید.