💥 Meta's Llama 4 Maverick vs. Deepseek v3 0324 ✅

متا به تازگی Llama 4 را ، گله ای از مدل های Multimodal AI ، از جمله Llama 4 Maverick ، در تاریخ 5 آوریل راه اندازی کرد.
و شما می دانید تمام اعتیاد به مواد مخدره که در اطراف Llama 4 برای مدتی بوده است ، درست است؟ 🥴
بنابراین ، من تصمیم گرفتم که بررسی کنم که آیا همه اعتیاد به مواد مخدره حتی ارزش آن را دارند و با مقایسه آن با یک مدل هوش مصنوعی منبع باز اخیر ، Deepseek V3 0324 ، آن را در آزمایش قرار داده ام.
نتایج بسیار تکان دهنده است و چیزی نیست که ممکن است انتظار داشته باشید! 😳
tl ؛ دکتر
اگر می خواهید مستقیم به نتیجه بروید ، خلاصه ای سریع از نحوه مقایسه این دو در اینجا آورده شده است برنامه نویسیبا استدلالبا نوشتنوت بازیابی زمینه بزرگ:
- برنامه نویسی: بدون شک در مورد آن برای برنامه نویسی ، Deepseek V3 0324 به مراتب بهتر از Llama 4 Maverick است.
- استدلال: هر دو Deepseek V3 0324 و Llama 4 Maverick با استدلال به همان اندازه خوب هستند. با این حال ، من Deepseek V3 0324 را نسبت به Llama 4 Maverick ترجیح می دهم.
- نوشتن خلاق: هر دو مدل در نوشتن عالی هستند. شما در انتخاب هر یک از آنها اشتباه نخواهید کرد. با این حال ، من می بینم که Llama 4 Maverick به روشی دقیق تر می نویسد ، در حالی که Deepseek V3 0324 به سبک گاه به گاه تر می نویسد.
- بازیابی زمینه بزرگ: به نظر می رسد Llama 4 Maverick در یافتن اطلاعات از مجموعه بزرگی از داده ها خوب است. این عالی نیست ، اما حداقل بهتر از Deepseek v3 0324 است.
اگر به مقایسه چنین مدل AI علاقه دارید ، Composio را بررسی کنید. ✌

مختصر در Llama 4 Maverick
نسخه اخیر مدل های AI Meta شامل دو مدل منتشر شده ، Llama 4 Scout و Llama 4 Maverick و سومین موردی است که هنوز در آموزش Llama 4 Behemoth است.
ℹ Scout Llama 4 جالب است ، دارای یک پنجره زمینه 10 متر توکن است که تاکنون بالاترین مدل های AI تاکنون است. 🫨 اما ، در اینجا ما بیشتر به نوع ماوریک علاقه مندیم ، پیشاهنگی شاید چیزی باشد که ارزش آن را در مقاله های آینده پوشش دهد؟ به من اطلاع دهید 😉
با 4 ماوریک تماس بگیرید 17b پارامترهای فعال با a پنجره زمینه 1 متربشر این یک مدل با هدف کلی است که در درجه اول در وظایف درک تصویر و متن ساخته شده است. این امر باعث می شود که به طور کلی برای برنامه های چت یا دستیاران انتخابی کاملی داشته باشد.
اکنون مشخص است که این مدل بیشتر یک مدل با هدف کلی است. در اینجا معیاری است که متا منتشر کرده است ، یک امتیاز Lmarena elo که آن را با مدل های AI اخیر مقایسه می کند ، که نشان می دهد همه مدل های AI را نه فقط در عملکرد بلکه در قیمت گذاری نیز ضرب و شتم می کند ، که بسیار ارزان است (0.19 $-0.49 دلار در هر 1 متر ورودی و خروجی).
در اینجا معیار Polyglot Aider برای مقایسه این مدل در کد نویسی چقدر خوب است:
و به اندازه کافی منصفانه ، به نظر نمی رسد که این مدل در برنامه نویسی بسیار خوب باشد ، همانطور که در این معیار می بینیم ، در مقایسه با سایر مدل های AI اخیر در آخرین حالت قرار دارد.
اما ما نمی توانیم از این واقعیت غافل شویم که این فقط یک مدل پارامتر فعال 17B است که عملکرد بهتری نسبت به Gemma 3 27B ، GPT-4O MINI و تقریباً مشابه QWEN 2.5 با پارامترهای 32B دارد که یک مدل برنامه نویسی است!
در اینجا یک فیلم سریع وجود دارد که می توانید برای دریافت ایده های بیشتر در کل مدل های Llama 4 توسط متیو برمن مشاهده کنید.
https://www.youtube.com/watch؟v=r8d62hsnqa0
بیایید ماوریک را با یک مدل کمی بزرگتر ، DeepSeek V3 0324 (پارامترهای فعال 37B) ، در استدلال ، برنامه نویسی ، نوشتن و کارهای بازیابی متن بزرگ آزمایش کنیم تا ببینیم که آیا این خوب است و آیا معیار پاسخی را که از ماوریک دریافت می کنیم ، توجیه می کند.
مشکلات برنامه نویسی
1. شبیه سازی ماسهبازی
سریع: یک شبیه سازی Sandbox Python را ایجاد کنید که در آن کاربران می توانند توپ هایی با اندازه های مختلف اضافه کنند ، آنها را با سرعت قابل تنظیم راه اندازی کرده و با کشیدن دوباره به آن تعامل برقرار کنند. شامل فیزیک اساسی برای شبیه سازی گرانش و برخورد بین توپ ها و مرزها است.
پاسخ از Llama 4 Maverick
می توانید کد تولید شده در اینجا را پیدا کنید: پیوند
در اینجا خروجی برنامه وجود دارد:
https://www.youtube.com/watch؟v=znzybzk4mva
تقریباً همه چیز کار می کند ، بدون شک ، اما فیزیک برخورد توپ قطعاً صحیح نیست. همچنین ، توپ نباید بتواند به دیوارهای جانبی وصل شود ، درست است؟ این منطق را کاملاً می شکند و پایان کلی پروژه نیز چندان عالی نیست. من می گویم این کار را به درستی انجام داد ، اما نه کاملاً.
پاسخ از Deepseek v3 0324
می توانید کد تولید شده در اینجا را پیدا کنید: پیوند
در اینجا خروجی برنامه وجود دارد:
https://www.youtube.com/watch؟v=ujktm9a0roy
خروجی از Deepseek V3 امیدوار کننده است. همه چیز کار می کند و این واقعیت است که ما می توانیم با کشیدن روی صفحه ، توپ را از هرجایی پرتاب کنیم ، آن را بهتر می کند.
همه چیز از فیزیک توپ گرفته تا UI پروژه عالی است. من قطعاً انتظار این سطح کمال را نداشتم ، اما این عالی است.
خلاصه:
Llama 4 و Deepseek V3 0324 هر دو آنچه را خواسته شد انجام دادند. اما اگر من می خواهم نتایج بین این دو را با هم مقایسه کنم ، می گویم پاسخ Deepseek بسیار بهتر است ، با فیزیک توپ و همه چیز کاملاً کار می کند.
2. توپ در شش ضلعی در حال چرخش
من می دانم ، من می دانم که این یک سوال بسیار استاندارد است ، و آنها به راحتی آن را حل می کنند ، درست است؟ این بار ، من آن را با پیچ و تاب پرسیدم. فهمیدم که تقریباً تمام مدل ها وقتی از آنها خواسته می شود با استفاده از آن استفاده کنند ، می توانند آن را حل کنند p5.js
، اما تقریباً همه آنها وقتی از آنها خواسته می شود در پایتون همان کار را انجام دهند ، شکست می خورند. بیایید ببینیم آیا این دو مدل از این یکی عبور می کنند یا خیر.
سریع: یک انیمیشن پایتون از یک توپ را که درون یک شش ضلعی چرخان است ، ایجاد کنید. توپ باید تحت تأثیر گرانش و اصطکاک قرار گیرد و باید با فیزیک واقع بینانه ، دیوارهای شش ضلعی در حال چرخش را برخورد و گزاف گویی کند.
پاسخ از Llama 4 Maverick
می توانید کد تولید شده در اینجا را پیدا کنید: پیوند
در اینجا خروجی برنامه وجود دارد:
https://www.youtube.com/watch؟v=kl5qgfwsgje
همانطور که حدس می زنم ، این یک شکست کامل است. 🥱 قرار نیست توپ تا به حال به خارج از شش ضلعی برود و باید به درون خود بچرخد.
پیچ و تاب این است ، هنگامی که من از همین کار خواسته ام که در آن انجام شود p5.js
، این کار کاملاً انجام شد ، اما با پایتون ، من حدس می زنم که با دقت شماره شناور یا ایجاد منطق کامل ، مشکلی دارد ، اما به نظر می رسد اینگونه است. 🤷♂
پاسخ از Deepseek v3 0324
می توانید کد تولید شده در اینجا را پیدا کنید: پیوند
در اینجا خروجی برنامه وجود دارد:
https://www.youtube.com/watch؟v=3-yklc-auna
خلاصه:
این بسیار خوب کار می کند و حتی برخی از ویژگی های اضافی را برای تعامل با توپ اضافه می کند. فیزیک توپ صحیح است ، اما به نظر می رسد مسئله این است که سرعت شش ضلعی بسیار کند است ، و حتی اگر یک کلید برای چرخش شش ضلعی اضافه شده باشد ، اما به سادگی کار نمی کند. به غیر از این ، همه چیز خوب است و کاملاً کار می کند.
3. مشکل leetcode
از نظر من ، به سادگی احساس صحیح نمی شود که یک سوال LeetCode برای آزمایش کدگذاری نداشته باشید. 😆 چرا این تست را با یک سوال سریع LC پایان نمی دهیم؟
برای این یکی ، من یک مورد سخت را با یک انتخاب کردم نرخ پذیرش فقط 15.2 ٪: بزرگترین palindrome قابل تقسیم توسط k را پیدا کنید
You are given two positive integers n and k.
An integer x is called k-palindromic if:
x is a palindrome.
x is divisible by k.
Return the largest integer having n digits (as a string) that is k-palindromic.
Note that the integer must not have leading zeros.
Example 1:
Input: n = 3, k = 5
Output: "595"
Explanation:
595 is the largest k-palindromic integer with 3 digits.
Example 2:
Input: n = 1, k = 4
Output: "8"
Explanation:
4 and 8 are the only k-palindromic integers with 1 digit.
Example 3:
Input: n = 5, k = 6
Output: "89898"
Constraints:
1 <= n <= 105
1 <= k <= 9
پاسخ از Llama 4 Maverick
💁 گاهی اوقات حتی Claude 3.7 Sonnet (یک مدل عالی برای برنامه نویسی) برای درست کردن منطق برای سؤالات دشوار LC و اتمام در زمان مورد انتظار مشکل دارد. با توجه به اینکه ما در هر دو سؤال قبلی ما از ماوریک پاسخ بهتری نگرفتیم ، من امیدوار نیستم که صادق باشم.
می توانید کد تولید شده در اینجا را پیدا کنید: پیوند
همانطور که انتظار می رفت ، این یک شکست کامل بود و حتی نمی تواند چند مورد آزمون اول را تصویب کند. من به معنای واقعی کلمه 15-20 دقیقه را توضیح دادم که چگونه این سوال را به درستی حل کنم ، زیرا خودم شخصاً آن را حل کردم. نه انعطاف پذیری. 😉
حتی بعد از تمام آن تکرار ، فقط قادر به بدست آوردن بود 10/632 موارد آزمون درست به نظر می رسد این مدل یک فاجعه برای برنامه نویسی است.
پاسخ از Deepseek v3 0324
می توانید کد تولید شده در اینجا را پیدا کنید: پیوند
این امکان را داشت که منطق را صحیح بدست آورد اما همیشه با یک خطای زمانی فراتر از (TLE) به پایان رسید. گذشت 132/632 موارد آزمون، اما در اینجا ما حداقل منطق را صحیح گرفتیم ، با توجه به چیزی از مدل Llama 4 Maverick.
خلاصه:
حداقل ما چیزی از Deepseek v3 0324 گرفتیم ، حتی اگر بهینه نبود ، در حالی که Llama 4 Maverick چیزی به ما نداد و به سادگی تسلیم شد. و حتی اگر مجبور باشم کد را مقایسه کنم ، Deepseek بهتر از ماوریک بود.
مشکلات استدلال
1 بررسی برابری
سریع: قوطی
(a==1 && a==2 && a==3)
همیشه ارزیابی کنیدtrue
به زبان برنامه نویسی؟
این یک سؤال دشوار است ، و من اساساً می خواهم ببینم که آیا این دو مدل هوش مصنوعی می توانند بفهمند که ما می توانیم از اضافه بار اپراتور پشتیبانی شده در برخی از زبان ها استفاده کنیم تا از طریق این سوال استدلال کنیم.
پاسخ از Llama 4 Maverick
می توانید استدلال آن را در اینجا بیابید: پیوند
وای ، این بار ، در واقع آن را درست کرد و نه تنها استدلال کاملاً استدلال کرد بلکه نمونه ای از کار بیش از حد اپراتور در جاوا را نیز ارائه داد. سرانجام ، من می توانم جنبه خوبی برای این مدل ببینم. 😮💨
پاسخ از Deepseek v3 0324
می توانید استدلال آن را در اینجا بیابید: پیوند
در اینجا ، آن را درست به دست آورد و دوباره یک نمونه کار برای Python و JavaScript ارائه داد. صادقانه بگویم ، من چیزی را در اینجا آموخته ام ، نمی دانستم چیزی به نام دسترسی به املاک شیء پویا وجود دارد و می توانید از آن برای دستیابی به چیزی مشابه استفاده کنید. واقعاً تحت تأثیر قرار گرفت!
خلاصه:
هر دو مدل این سؤال را کاملاً صحیح به دست آوردند ، و من حتی هنگام آزمایش این دو مدل ، یک ترفند JavaScript را یاد گرفتم. چه چیز دیگری می توانید انتظار داشته باشید ، درست است؟ 🫠
2. عبور از شهر در یک ماشین
سریع: چهار نفر باید با استفاده از یک ماشین مجزا که دو نفر را در خود جای داده است ، در 17 دقیقه یک شهر را پشت سر بگذارند. یک دقیقه 1 دقیقه طول می کشد ، دیگری 2 دقیقه طول می کشد ، سوم 5 دقیقه طول می کشد و چهارم 10 دقیقه طول می کشد. چگونه همه آنها به موقع می گذرد؟
پاسخ از Llama 4 Maverick
می توانید استدلال آن را در اینجا بیابید: پیوند
در اینجا دوباره ، این مدل در استدلال و پاسخ دادن به جواب کار بسیار خوبی انجام داد. در اینجا چیز زیادی برای گفتن وجود ندارد. این به راحتی این یکی را درست کرد ، و این قطعاً یک مزیت است.
نکته ای که من متوجه شدم این است که این مدل در تولید پاسخ ها بسیار سریع است ، این چیزی نیست که من بسیاری از مدل ها را دیده ام که قادر به انجام آن هستند.
پاسخ از Deepseek v3 0324
می توانید استدلال آن را در اینجا بیابید: پیوند
این یکی را با استدلال و توضیح عالی نیز درست کرد. Deepseek V3 0324 تقریباً همه چیزهایی را که تاکنون آزمایش کرده ایم خرد کرده است. به نظر می رسد این یک مدل عالی برای استدلال و برنامه نویسی است. 🔥
خلاصه:
در کل ، هر دو مدل جواب را صحیح گرفتند. با این حال ، من عاشق این هستم که چگونه DeepSeek V3 0324 با جواب روبرو شد ، و توضیحات فرایندی عالی را در مقایسه با نحوه رسیدن Llama 4 Maverick بدون اینکه خیلی زیاد به جواب رسید ، ارائه داد.
باز هم ، این یک عامل مهم نیست ، اما ارزش آن را دارد که نحوه دریافت پاسخ از هر دو مدل را مقایسه کنیم.
نوشتن خلاق
با دانستن اینکه هر دو این مدل در نوشتن چقدر خوب هستند ، چرا یک آزمایش سریع نوشتن خلاق بین آنها انجام نمی شود و می بینید کدام یک ما را به ما پاسخ بهتری می دهد؟
1. آخرین حافظه
سریع: شما از خواب بیدار می شوید که متوجه می شوید کسی که خیلی خوب می شناسید ، یک هم اتاقی ، بهترین دوست ، حتی یک شریک زندگی ، “حذف” شده است. هیچ کس آنها را به یاد نمی آورد ، اما شما این کار را می کنید. یک پرونده را روی کاشت عصبی خود پیدا می کنید. پایان کوتاه و مشکوک به این داستان بنویسید.
پاسخ از Llama 4 Maverick
می توانید پاسخ آن را در اینجا بیابید: پیوند
این واقعاً در ابتدا یک داستان عالی با برخی از ساخت و سازها نوشت و در کل ، این دقیقاً همان چیزی بود که من انتظار داشتم. این عالی بود ، اما من واقعاً نمی توانم بگویم که از پایان داستانی که نوشتم تحت تأثیر قرار گرفته ام. قرار بود تمرکز اصلی در پایان باشد ، اما در کل ، یک داستان عالی نوشت.
پاسخ از Deepseek v3 0324
می توانید پاسخ آن را در اینجا بیابید: پیوند
این یکی بنگر است. دقیقاً همان کاری را که پرسیده شد انجام داد. حتی اگر این داستان سازی زیادی را شامل نشد ، پایان آن بسیار عالی به نظر می رسید. حتماً بخوانید. مطمئناً تحت تأثیر قرار گرفتن در پایان ، با پیچ و تاب مشکوک در خط آخر ، تحت تأثیر قرار خواهید گرفت. 😵
خلاصه:
به نظر می رسد هر دو مدل در نوشتن عالی هستند. Llama 4 Maverick یک داستان عالی با ساخت داستان خوب نوشت ، و Deepseek v3 0324 آن را به سبک گاه به گاه تر اما با یک پایان عالی نوشت. برای نوشتن ، احساس راحتی کنید که هر یک از این دو مدل را انتخاب کنید و با هیچ یک از آنها اشتباه نخواهید کرد.
بازیابی زمینه بزرگ
این جالب خواهد بود ما توانایی مدل را برای یافتن اطلاعات خاص از یک زمینه داده بسیار بزرگ آزمایش خواهیم کرد. بیایید ببینیم که این دو مدل چگونه این کار را مدیریت می کنند.
1. سوزن در یونجه
ایده در اینجا این است که من یک ورودی Lorem Ipsum از بیش از 100k نشانه را ارائه می دهم ، و یک کلمه مورد نظر خود را در جایی در داده ها قرار می دهم و از مدل ها می خواهم که کلمه را واکشی کنند و موقعیت آن در ورودی است.
سریع: لطفاً متن بزرگ Lorem Ipsum را پردازش کنید. در درون آن ، یک کلمه منحصر به فرد با “کلمه” شروع می شود و با “واکشی” پایان می یابد. وظیفه شما این است که این کلمه را پیدا کنید ، موقعیت آن را یادداشت کنید و کل کلمات را در متن حساب کنید.
پاسخ از Llama 4 Maverick
می توانید داده های Lorem را در اینجا پیدا کنید: پیوند
می توانید پاسخ آن را در اینجا بیابید: پیوند
در کمال تعجب ، بعد از فکر کردن در مورد 16 ثانیه، این کلمه صحیح بود ، و این یک چیز عالی است. با این حال ، نمی تواند موقعیت کلمه و تعداد کل کلمات موجود در سند را بدست آورد.
پاسخ از Deepseek v3 0324
می توانید داده های Lorem را در اینجا پیدا کنید: پیوند
می توانید پاسخ آن را در اینجا بیابید: پیوند
متاسفانه ، حتی پس از فکر کردن 18 ثانیه، هنوز هم نمی تواند کلمه یا تعداد کل کلمات اسناد را پیدا کند. این قطعاً ناامید کننده است و از این مدل انتظار نمی رود.
خلاصه:
به نظر می رسد Llama 4 Maverick در یک آزمایش واحد که برای بازیابی زمینه بزرگ انجام دادیم ، بهتر عمل کرده است. 🔥 ممکن است بهترین نمونه نباشد ، اما پیدا کردن اطلاعات کوچک از یک زمینه بزرگ داده ها ، کل نقطه بازیابی زمینه بزرگ است.
حتی اگر هیچکدام نتوانند تعداد کلمه و موقعیت آن را صحیح بدست آورند ، ماوریک حداقل کلمه را صحیح گرفت.
پایان
من فکر نمی کنم Llama 4 Maverick مطابق با اعتیاد به مواد مخدره ارزش یک مدل هوش مصنوعی را داشته باشد. من واقعاً این مدل را برای برنامه نویسی در نظر نمی گیرم. از دیدگاه من ، برای “مناسب تر است”برنامه نویسی“به جای برنامه نویسی واقعی.
به غیر از این ، برای نوشتن و همه ، Llama 4 Maverick خوب است. با توجه به اندازه و قیمت گذاری آن خوب است. زمان پاسخ برای ماوریک بسیار سریع ، به بهترین وجه مناسب ، همانطور که ادعا می کنند ، برای نوشتن است. شما هرگز در انتخاب این مدل برای نوشتن و آن کارهای خلاق اشتباه نخواهید کرد.
من بیشتر علاقه مند به آزمایش Scout Llama 4 هستم و می بینم که چگونه Behemoth در حال تغییر است.
نظر شما در مورد Llama 4 Maverick چیست؟ آیا این به انتظارات شما عمل کرده است؟ در نظرات به من اطلاع دهید! 👇
