LLM Evals— دامی که هیچکس به شما نمی گوید 🐔

ما آن را بیشتر و بیشتر می شنویم: “از ارزیابی های LLM برای هدایت پروژه هوش مصنوعی خود استفاده کنید.” و به یک دلیل خوب – معیارها ضروری هستند.
با این حال، تله ای وجود دارد که کسی از آن صحبت نمی کند…
فرض کنید یک ربات چت دارید و می خواهید معیارهایی را معرفی کنید. ابزارهایی را پیدا میکنید که معیارهایی مانند «مفید بودن»، «مختصر بودن» و «کامل بودن» را محاسبه میکنند.
عالی به نظر می رسد – آنها قول می دهند که تجربه کاربر شما را بهینه کنند. درسته؟
حقیقت این است که ارتباط آنها با ارزش واقعی تجاری اغلب نامشخص است. آیا این واقعاً چیزی است که کاربر شما به آن اهمیت می دهد؟ آیا این باعث افزایش پذیرش می شود؟
بسیاری از تیمها در نهایت چیز اشتباه را اندازهگیری میکنند، فکر میکنند که مبتنی بر دادهها هستند، در حالی که فراموش میکنند آنچه واقعاً مهم است.
معیارها ذاتاً خوب نیستند. آنها فقط به اندازه سؤالاتی مفید هستند که به شما کمک می کنند پاسخ دهید.
اگر نپرسید “موفقیت چگونه است؟” یا “هدفی که می خواهم اندازه گیری کنم چیست؟” معیارهای شما شما را هدایت نمی کند – آنها شما را گمراه می کنند.
بنابراین، دفعه بعد که معیارها را تعیین میکنید، از خود بپرسید: آیا در حال اندازهگیری این هستید که چه چیزی بر اهداف کسبوکار شما تأثیر میگذارد – یا فقط اندازهگیری چه چیزی آسان است؟
این تفاوت ممکن است توضیح دهد که چرا پروژه هوش مصنوعی شما گیر کرده است.
زیرا تعقیب معیارهای اشتباه پیشرفت نیست. دایره ای می دود – مثل مرغ بی سر.