برنامه نویسی

سخنرانی 5 (htmllms):

امتیاز

  1. مدل های GPT بر روی مقادیر زیادی از داده ها آموزش داده می شوند. منابع داده شامل خزیدن مشترک ، ویکی پدیا ، کتاب ، مقالات خبری ، مجلات علمی ، پست های Reddit و غیره است.
  2. مدل های GPT فقط نسخه مقیاس معماری ترانسفورماتور کلاسیک هستند. مقیاس بالا = بارهای گهواره پارامترها (هانتر میلیاردها) و بسیاری از لایه های ترانسفورماتور دیگر. GPT-3 دارای 96 لایه ترانسفورماتور و 175 میلیارد پارامتر استبشر
  3. مدل های GPT برخلاف معماری ترانسفورماتور کلاسیک ، رمزگذار ندارند.
  4. پیش از ترساندن این مدلها به روشی بدون نظارت انجام می شود ، به این معنی که هیچ برچسب خروجی وجود ندارد. یا می توانید بگویید که برچسب خروجی قبلاً در جمله ورودی وجود دارد.
    • مثال: ورودی: مغزهای بزرگ.
    • ورودی به “بزرگ” ، “مغز” تقسیم می شود
    • “بزرگ” -> ورودی به مدل -> مدل سعی می کند “مغز” را پیش بینی کند
    • بدیهی است که این مدل از بین می رود ، ما از دست دادن را محاسبه می کنیم و از backpropogation برای به روزرسانی وزن های Archthiture Transformer با استفاده از SGD استفاده می کنیم
      شرح تصویر

این مدل ها به صورت خودکار متوسل می شوند ، به این معنی ، خروجی تکرار قبلی در تکرار بعدی به ورودی اضافه می شود.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا