مقایسه Pixtral Large در مقابل Pixtral 12B

ek3nk4r 2024-11-26

0 5 خواندن این مطلب 7 دقیقه زمان میبرد

مقایسه Pixtral Large در مقابل Pixtral 12B

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

Summarize this content to 400 words in Persian Lang
یوتیوب: روی من کلیک کنید

هوش مصنوعی چندوجهی در سال های اخیر جهش های قابل توجهی داشته است Mistral AI Pixtral Large مستثنی نیست هدف این مدل زبان-بینایی جدید (VLM) تعریف مجدد معیارها در درک و استدلال چندوجهی است. در این پست، به قابلیت‌های Pixtral Large، عملکرد آن در برابر نسخه قبلی خود، Pixtral 12B و GPT-4V می‌پردازم و آزمایش‌های بنچمارک خود را به اشتراک می‌گذارم تا به شما در تصمیم‌گیری آگاهانه در هنگام انتخاب VLM بعدی خود کمک کنید.

Pixtral Large چیست؟

Pixtral Large آخرین نوآوری چند وجهی Mistral AI است. بر پایه Pixtral 12B، قابلیت‌های استدلال و درک پیشرفته‌تری را معرفی می‌کند. آیا مقابله با مسائل پیچیده ریاضی در مجموعه داده ها مانند MathVista، درک سند از DocVQA، یا تصویری-سوال پاسخ با VQAv2، Pixtral Large به طور مداوم خود را با عملکرد برتر متمایز می کند.

در هسته خود، Pixtral Large توسط 123 میلیارد پارامتر رمزگشای چند وجهی و الف رمزگذار بینایی 1 میلیارد پارامتری، آن را به یک نیروگاه واقعی تبدیل می کند. پشتیبانی می کند تا 30 عکس با وضوح بالا در یک پنجره زمینه 128K، به آن اجازه می دهد تا وظایف استدلالی پیچیده و در مقیاس بزرگ را بدون زحمت انجام دهد. آن رمزگذار متن Mistral Large 2 پردازش متن را در عین حفظ قابلیت‌های چندوجهی استثنایی آن افزایش می‌دهد.

مشخصات فنی

اگرچه معماری دقیق Pixtral Large فاش نشده است، اما احتمالاً بر اساس Pixtral 12B ساخته شده است. رمزگشای ترانسفورماتور چندوجهی مبتنی بر تعبیه رایج. این تنظیمات آن را قادر به پردازش می کند استنتاج های چند تصویری و استدلال متقابل وجهی با کیفیت بالا را انجام دهید، در کارهایی که نیاز به یکپارچگی عمیق داده های بصری و متنی دارند برتر باشید.

در اینجا برخی از مشخصات برجسته Pixtral Large آورده شده است:

پارامترها: 123 میلیارد (رمزگشا چند وجهی) + 1 میلیارد (رمزگذار بینایی)

پنجره زمینه: 128 هزار توکن

پشتیبانی از تصویر: حداکثر 30 تصویر با وضوح بالا

برنامه های کاربردی: استدلال ریاضی، درک سند، درک نمودار و موارد دیگر

Pixtral Large در مقابل Pixtral 12B

تغییر از Pixtral 12B به Pixtral Large نشان دهنده یک مبادله ظریف است:

Pixtral 12B: قابلیت های متوازن در بین وظایف، برتری در مبتنی بر برچسب و مبتنی بر منطق ارزیابی ها

Pixtral Large: در کارهای مبتنی بر برچسب عقب می ماند اما در آن می درخشد عملکرد مبتنی بر منطق، بیانگر قابلیت های برتر استدلال و تبیین است.

این تکامل نشان دهنده تمرکز Pixtral Large بر کارهایی است که نیاز به درک عمیق و استدلال دارند و آن را به یک رقیب قوی برای موارد استفاده تخصصی تبدیل می کند.

نتایج محک زدن

مجموعه داده های مورد استفاده

برای آزمایش Pixtral Large، آن را با نسخه قبلی و GPT-4V با استفاده از دو مجموعه داده محک زدم:

ArchiveQA: برای مقایسه وظایف QA مبتنی بر کاغذ را با استنتاج های GPT-4V تحقیق کنید.

Flickr30k: مجموعه داده کلاسیک زیرنویس تصویر که با زیرنویس‌های GPT-4O ایجاد شده است.

معیارهای ارزیابی

من استفاده کردم شباهت کسینوس برای اندازه گیری تراز معنایی بین خروجی های تولید شده و داده های مرجع. معیارها گنجانده شده است نرخ برد، شباهت متوسط، و امتیازات برتر 1، تاپ 5، 10 برتر.

نتایج ArxivQA

از 1000 عکس به صورت تصادفی انتخاب شده، Pixtral Large توانایی قوی تری در استدلال از طریق محتوای علمی و ریاضی نشان داد. در حالی که با ارزیابی‌های مبتنی بر برچسب در مقایسه با Pixtral 12B مشکل داشت، در وظایف مبتنی بر منطق عملکرد بهتری داشت. این نشان دهنده تغییر به سمت قابلیت های استدلال عمیق تر، ایده آل برای سناریوهای پیچیده QA.

نتایج Flickr30k

برای معیار زیرنویس Flickr30kPixtral Large در مقایسه با Pixtral 12B بهبودهای جزئی ایجاد کرد. زیرنویس های ساخته شده توسط انسان. با این حال، هر دو مدل در دستیابی به نرخ برد برای این کار عقب ماندند.

جالب است که در مقایسه با زیرنویس GPT-4V، Pixtral Large عملکرد خوبی داشت، اگرچه در مسابقات با رتبه برتر کمی از Pixtral 12B عقب تر بود. این نتایج پتانسیل Pixtral Large را برجسته می‌کند، اما همچنین زمینه‌هایی را برای بهبود در دقت و تولید زیرنویس پیشنهاد می‌کند.

استفاده از Pixtral Large در Tune Studio

با توجه به اندازه مدل و منابع مورد نیاز، من استفاده کردم استودیو کوک برای محک زدن با رابط کاربر پسند و اسکریپت های استنتاج کارآمد، من توانستم پردازش کنم 500 عکس در ساعت، تکمیل کار برای زیر 20 دلار. این موضوع، Tune Studio را به ابزاری ارزشمند برای محققان و توسعه‌دهندگانی تبدیل می‌کند که روی پروژه‌های هوش مصنوعی در مقیاس بزرگ کار می‌کنند.

نتیجه گیری

Pixtral Large نشان‌دهنده یک گام به جلو در هوش مصنوعی چندوجهی است که استدلال پیشرفته و درک متقابل وجهی را ارائه می‌دهد. اگرچه ممکن است از هر نظر از Pixtral 12B پیشی نگیرد، تمرکز آن بر وظایف مبتنی بر منطق، آن را به یک انتخاب قانع‌کننده برای برنامه‌هایی که نیاز به درک عمیق‌تری دارند تبدیل می‌کند.

برای توسعه دهندگان، محققان و شرکت هایی که به دنبال VLM های پیشرفته هستند، Pixtral Large ترکیبی از قدرت و دقت را ارائه می دهد که شکست دادن آن دشوار است.

نظر شما در مورد Pixtral Large چیست؟ آیا این چیز بزرگ بعدی در VLM ها است یا در مدل های دیگر مانند GPT-4V پتانسیل را می بینید؟ نظرات خود را در نظرات زیر به من بگویید! 🚀

یوتیوب: روی من کلیک کنید

هوش مصنوعی چندوجهی در سال های اخیر جهش های قابل توجهی داشته است Mistral AI Pixtral Large مستثنی نیست هدف این مدل زبان-بینایی جدید (VLM) تعریف مجدد معیارها در درک و استدلال چندوجهی است. در این پست، به قابلیت‌های Pixtral Large، عملکرد آن در برابر نسخه قبلی خود، Pixtral 12B و GPT-4V می‌پردازم و آزمایش‌های بنچمارک خود را به اشتراک می‌گذارم تا به شما در تصمیم‌گیری آگاهانه در هنگام انتخاب VLM بعدی خود کمک کنید.

فهرست مطالب

Pixtral Large چیست؟

Pixtral Large آخرین نوآوری چند وجهی Mistral AI است. بر پایه Pixtral 12B، قابلیت‌های استدلال و درک پیشرفته‌تری را معرفی می‌کند. آیا مقابله با مسائل پیچیده ریاضی در مجموعه داده ها مانند MathVista، درک سند از DocVQA، یا تصویری-سوال پاسخ با VQAv2، Pixtral Large به طور مداوم خود را با عملکرد برتر متمایز می کند.

در هسته خود، Pixtral Large توسط 123 میلیارد پارامتر رمزگشای چند وجهی و الف رمزگذار بینایی 1 میلیارد پارامتری، آن را به یک نیروگاه واقعی تبدیل می کند. پشتیبانی می کند تا 30 عکس با وضوح بالا در یک پنجره زمینه 128K، به آن اجازه می دهد تا وظایف استدلالی پیچیده و در مقیاس بزرگ را بدون زحمت انجام دهد. آن رمزگذار متن Mistral Large 2 پردازش متن را در عین حفظ قابلیت‌های چندوجهی استثنایی آن افزایش می‌دهد.

مشخصات فنی

اگرچه معماری دقیق Pixtral Large فاش نشده است، اما احتمالاً بر اساس Pixtral 12B ساخته شده است. رمزگشای ترانسفورماتور چندوجهی مبتنی بر تعبیه رایج. این تنظیمات آن را قادر به پردازش می کند استنتاج های چند تصویری و استدلال متقابل وجهی با کیفیت بالا را انجام دهید، در کارهایی که نیاز به یکپارچگی عمیق داده های بصری و متنی دارند برتر باشید.

در اینجا برخی از مشخصات برجسته Pixtral Large آورده شده است:

پارامترها: 123 میلیارد (رمزگشا چند وجهی) + 1 میلیارد (رمزگذار بینایی)
پنجره زمینه: 128 هزار توکن
پشتیبانی از تصویر: حداکثر 30 تصویر با وضوح بالا
برنامه های کاربردی: استدلال ریاضی، درک سند، درک نمودار و موارد دیگر

Pixtral Large در مقابل Pixtral 12B

تغییر از Pixtral 12B به Pixtral Large نشان دهنده یک مبادله ظریف است:

Pixtral 12B: قابلیت های متوازن در بین وظایف، برتری در مبتنی بر برچسب و مبتنی بر منطق ارزیابی ها
Pixtral Large: در کارهای مبتنی بر برچسب عقب می ماند اما در آن می درخشد عملکرد مبتنی بر منطق، بیانگر قابلیت های برتر استدلال و تبیین است.

نتایج محک زدن

مجموعه داده های مورد استفاده

برای آزمایش Pixtral Large، آن را با نسخه قبلی و GPT-4V با استفاده از دو مجموعه داده محک زدم:

ArchiveQA: برای مقایسه وظایف QA مبتنی بر کاغذ را با استنتاج های GPT-4V تحقیق کنید.
Flickr30k: مجموعه داده کلاسیک زیرنویس تصویر که با زیرنویس‌های GPT-4O ایجاد شده است.

معیارهای ارزیابی

من استفاده کردم شباهت کسینوس برای اندازه گیری تراز معنایی بین خروجی های تولید شده و داده های مرجع. معیارها گنجانده شده است نرخ برد، شباهت متوسط، و امتیازات برتر 1، تاپ 5، 10 برتر.

نتایج ArxivQA

از 1000 عکس به صورت تصادفی انتخاب شده، Pixtral Large توانایی قوی تری در استدلال از طریق محتوای علمی و ریاضی نشان داد. در حالی که با ارزیابی‌های مبتنی بر برچسب در مقایسه با Pixtral 12B مشکل داشت، در وظایف مبتنی بر منطق عملکرد بهتری داشت. این نشان دهنده تغییر به سمت قابلیت های استدلال عمیق تر، ایده آل برای سناریوهای پیچیده QA.

نتایج Flickr30k

برای معیار زیرنویس Flickr30kPixtral Large در مقایسه با Pixtral 12B بهبودهای جزئی ایجاد کرد. زیرنویس های ساخته شده توسط انسان. با این حال، هر دو مدل در دستیابی به نرخ برد برای این کار عقب ماندند.

توضیحات تصویر

جالب است که در مقایسه با زیرنویس GPT-4V، Pixtral Large عملکرد خوبی داشت، اگرچه در مسابقات با رتبه برتر کمی از Pixtral 12B عقب تر بود. این نتایج پتانسیل Pixtral Large را برجسته می‌کند، اما همچنین زمینه‌هایی را برای بهبود در دقت و تولید زیرنویس پیشنهاد می‌کند.

استفاده از Pixtral Large در Tune Studio

با توجه به اندازه مدل و منابع مورد نیاز، من استفاده کردم استودیو کوک برای محک زدن با رابط کاربر پسند و اسکریپت های استنتاج کارآمد، من توانستم پردازش کنم 500 عکس در ساعت، تکمیل کار برای زیر 20 دلار. این موضوع، Tune Studio را به ابزاری ارزشمند برای محققان و توسعه‌دهندگانی تبدیل می‌کند که روی پروژه‌های هوش مصنوعی در مقیاس بزرگ کار می‌کنند.