برنامه نویسی
سخنرانی 5 (htmllms):

امتیاز
- مدل های GPT بر روی مقادیر زیادی از داده ها آموزش داده می شوند. منابع داده شامل خزیدن مشترک ، ویکی پدیا ، کتاب ، مقالات خبری ، مجلات علمی ، پست های Reddit و غیره است.
- مدل های GPT فقط نسخه مقیاس معماری ترانسفورماتور کلاسیک هستند. مقیاس بالا = بارهای گهواره پارامترها (هانتر میلیاردها) و بسیاری از لایه های ترانسفورماتور دیگر. GPT-3 دارای 96 لایه ترانسفورماتور و 175 میلیارد پارامتر استبشر
- مدل های GPT برخلاف معماری ترانسفورماتور کلاسیک ، رمزگذار ندارند.
- پیش از ترساندن این مدلها به روشی بدون نظارت انجام می شود ، به این معنی که هیچ برچسب خروجی وجود ندارد. یا می توانید بگویید که برچسب خروجی قبلاً در جمله ورودی وجود دارد.
- مثال: ورودی: مغزهای بزرگ.
- ورودی به “بزرگ” ، “مغز” تقسیم می شود
- “بزرگ” -> ورودی به مدل -> مدل سعی می کند “مغز” را پیش بینی کند
- بدیهی است که این مدل از بین می رود ، ما از دست دادن را محاسبه می کنیم و از backpropogation برای به روزرسانی وزن های Archthiture Transformer با استفاده از SGD استفاده می کنیم
این مدل ها به صورت خودکار متوسل می شوند ، به این معنی ، خروجی تکرار قبلی در تکرار بعدی به ورودی اضافه می شود.