تست های تولید شده را با سرور نمایشنامه نویس MCP و LLMS مقایسه کنید

مقدمه
همانطور که مرحله را در قسمت 7 تنظیم می کنیم ، آماده هستیم تا با مقایسه ادامه دهیم. مقایسه برای Claude 4 Opus و Claude 4 Sonnet تازه معرفی شده را می توان در قسمت 7 یافت.
معیارهای مقایسه
- کیفیت کد (ساختار ، مدولار بودن ، رسیدگی به خطا)
- خوانایی (وضوح ، نامگذاری ، نظرات ، قالب بندی)
- پیروی از نمایشنامه نویس و اتوماسیون بهترین شیوه ها (استفاده از یاب ، ادعاها ، قابلیت استفاده مجدد ، قابلیت حفظ)
نتایج مقایسه
GPT-4.1
کیفیت کد
- یک مدل شیء صفحه (مقاله) را با مکان یاب گروهی و اقدامات گروه بندی می کند.
- از اشیاء تو در تو برای ناوبری ، فرم ها و اقدامات مقاله استفاده می کند.
- از مکان های مبتنی بر نقش و پارامتری استفاده می کند.
- محصور سازی خوب و قابلیت استفاده مجدد.
خوانایی
- ساختار بسیار واضح ، گروه بندی منطقی و نام/متغیر روش توصیفی.
- حداقل نظرات ، اما کد خود توضیحی است.
- قالب بندی مداوم.
بهترین روشها
- بهترین شیوه های نمایشنامه نویسی را دنبال می کند: انتخاب کنندگان مبتنی بر نقش ، ادعاهای وب ، پیکربندی از طریق Env Vars.
- هیچ زمان بندی سخت و بدون ثبت نام وجود ندارد.
- آزمون شامل تمام اقدامات CRUD و بررسی وضعیت پس از حذف است.
Claude 3.7 Sonnet (تفکر)
کیفیت کد
- از یک مدل شیء صفحه به خوبی ساختار یافته (ConduitPage) استفاده می کند ، یاب ها و اقدامات را به عنوان روش/گیرنده کلاس گروه بندی می کند.
- محاصره خوب و قابلیت استفاده مجدد ؛ همه تعامل صفحه انتزاعی است.
- از مکان های مبتنی بر نقش (GetByRole) استفاده می کند و از انتخاب کنندگان سخت کد جلوگیری می کند.
- قبل از ورود به سیستم ، وضعیت ورود به سیستم را بررسی کنید.
خوانایی
- نام های روش شفاف و توصیفی.
- قالب بندی مداوم و نامگذاری متغیر.
- حداقل نظرات ، اما کد خود توضیحی است.
بهترین روشها
- بهترین شیوه های نمایشنامهنویس را دنبال می کند: ادعاهای وب در اولین ، یاب های مبتنی بر نقش و مدولار بودن.
- از متغیرهای محیط برای پیکربندی استفاده می کند.
- هیچ زمان بندی سخت و بدون ثبت نام وجود ندارد.
- سناریوی آزمون پایان به پایان و قابل خواندن است.
SWE-1
کیفیت کد
- یک مدل شیء صفحه (ConduitApp) را با گیرنده های خصوصی برای مکان یاب ها و روش های اقدامات پیاده سازی می کند.
- محاصره و مدولار خوب.
- از انتخاب کنندگان مبتنی بر نقش و ادعاهای وب استفاده می کند.
- برای تنظیمات/اشکال ، قلاب های beforeall/afterally وجود دارد.
خوانایی
- نام های روش شفاف و توصیفی.
- قالب بندی مداوم و ساختار منطقی.
بهترین روشها
- توصیه های نمایشنامه نویسی را دنبال می کند: مدولار ، انتخاب کنندگان مبتنی بر نقش ، ادعاهای وب.
- از متغیرهای محیط استفاده می کند.
- آزمون جامع است و تمام عملیات CRUD را بررسی می کند.
Xia-3
کیفیت کد
- یک مدل شیء صفحه (ConduitApp) را پیاده سازی می کند اما با تمام داده های موجود در داخل روش ها.
- هر عمل یک روش واحد است. بدون پارامتر.
- از انتخاب کنندگان مبتنی بر نقش و ادعاهای وب استفاده می کند.
- برای استفاده مجدد کمتر انعطاف پذیر است.
خوانایی
- ساده و قابل خواندن ، اما مقیاس پذیر تر.
- نام روش ها واضح است ، اما برای استفاده مجدد از پارامتر شدن برخوردار نیست.
- نظرات حداقل
بهترین روشها
- از بهترین شیوه های نمایشنامه نویس برای انتخاب کنندگان و ادعاها استفاده می کند.
- هیچ مدولار سازی داده های آزمون وجود ندارد.
- مراحل آزمون واضح و متوالی است.
Deepseek R1
کیفیت کد
- مدل شیء بدون صفحه ؛ همه اقدامات در آزمون خطی هستند.
- از ثابت ها برای اعتبارنامه و داده های مقاله استفاده می کند.
- به طور مستقیم در مراحل تست از مکان های نمایشنامه نویس استفاده می کند.
- فاقد انتزاع و قابلیت استفاده مجدد است.
خوانایی
- ساده ، قابل خواندن ، اما برای تست های بزرگتر قابل حفظ است.
- نام های متغیر واضح هستند.
- آزمون به بخش های منطقی تقسیم می شود (ایجاد/ویرایش/حذف).
بهترین روشها
- از انتخاب کنندگان مبتنی بر نقش و ادعاهای وب استفاده می کند.
- بدون مدولار سازی ؛ برای سوئیت های بزرگتر مقیاس پذیر نیست.
- هیچ نظری وجود ندارد ، اما ساختار آن آسان است.
جدول خلاصه برای POM
الگو | محاصره | انعطاف پذیری | خوانایی | خطر استحکام | سطح API |
---|---|---|---|---|---|
گیرنده | واسطه | عالی | عالی | کم | واسطه |
گیرنده های خصوصی | عالی | واسطه | واسطه | کم | کم |
اشیاء برای یاب دهندگان | کم | عالی | واسطه | واسطه | عالی |
روشها به طور مستقیم | عالی | کم | عالی | کم | کم |
جدول مقایسه ای
پرونده | POM استفاده شده | انتزاع | خوانایی | بهترین روشها | مقیاس پذیری | نظرات | به روزرسانی های دستی |
---|---|---|---|---|---|---|---|
Claude 3.7 Sonnet (تفکر) | بله | عالی | عالی | بله | عالی | خوش ساخت | کم |
Deepseek-R1 | هیچ | کم | واسطه | جزئي | کم | منطق درون خطی | کم |
GPT-4.1 | بله | عالی | عالی | بله | عالی | خوش ساخت | کم |
SWE-1 | بله | عالی | عالی | بله | عالی | قلاب های مورد استفاده ، تنظیم قدیمی/اشک | عالی |
Xia-3 | بله | واسطه | واسطه | بله | واسطه | بدون پارامتر | واسطه |
پایان
از آنجا که نتیجه Claude 4 Opus و Claude 4 Sonnet بهتر از GPT-4.1 و Claude 3.7 Sonnet قابل توجه نیستند ، من به دلیل هزینه های بالاتر آنها را توصیه نمی کنم.
بهترین به طور کلی (کیفیت کد و بهترین شیوه ها):
- GPT-4.1 و Claude 3.7 غزل (تفکر) برای مدل های شیء صفحه ساخت یافته ، مدولار بودن و پایبندی به بهترین شیوه های نمایشنامه نویس متمایز هستند. هر دو بسیار قابل حفظ و قابل خواندن هستند ، با انتزاع و مقیاس پذیری خوبی.
- SWE-1 نیز قوی است ، اما می تواند تنظیم/اشکال مرورگر قدیمی را بهبود بخشد. نیاز به به روزرسانی دستی آزمون/یاب ها بعد از نسل وجود داشت.
قابل خواندن برای تست های کوچک:
- Deepseek R1 و Xai Grok-3 قابل خواندن هستند و برای سناریوهای کوچک و ساده قابل خواندن هستند اما فاقد انتزاع و مقیاس پذیری برای مجموعه های بزرگتر هستند.
بهترین سوئیت های اتوماسیون بزرگ:
- GPT-4.1 و Claude 3.7 غزل (تفکر) به دلیل قابلیت حفظ ، مدولار بودن و گسترش آنها ترجیح داده می شوند.
چه چیزی بعدی؟
دنیای توسعه و آزمایش نرم افزار به سرعت در حال تغییر است ، بنابراین یادگیری و آزمایش را ادامه دهید.
لطفا ، از شروع مکالمه در مورد آزمون یا نتیجه آن دریغ نکنید.