برنامه نویسی

تست های تولید شده را با سرور نمایشنامه نویس MCP و LLMS مقایسه کنید

مقدمه

همانطور که مرحله را در قسمت 7 تنظیم می کنیم ، آماده هستیم تا با مقایسه ادامه دهیم. مقایسه برای Claude 4 Opus و Claude 4 Sonnet تازه معرفی شده را می توان در قسمت 7 یافت.

معیارهای مقایسه

  1. کیفیت کد (ساختار ، مدولار بودن ، رسیدگی به خطا)
  2. خوانایی (وضوح ، نامگذاری ، نظرات ، قالب بندی)
  3. پیروی از نمایشنامه نویس و اتوماسیون بهترین شیوه ها (استفاده از یاب ، ادعاها ، قابلیت استفاده مجدد ، قابلیت حفظ)

نتایج مقایسه

GPT-4.1

کیفیت کد

  • یک مدل شیء صفحه (مقاله) را با مکان یاب گروهی و اقدامات گروه بندی می کند.
  • از اشیاء تو در تو برای ناوبری ، فرم ها و اقدامات مقاله استفاده می کند.
  • از مکان های مبتنی بر نقش و پارامتری استفاده می کند.
  • محصور سازی خوب و قابلیت استفاده مجدد.

خوانایی

  • ساختار بسیار واضح ، گروه بندی منطقی و نام/متغیر روش توصیفی.
  • حداقل نظرات ، اما کد خود توضیحی است.
  • قالب بندی مداوم.

بهترین روشها

  • بهترین شیوه های نمایشنامه نویسی را دنبال می کند: انتخاب کنندگان مبتنی بر نقش ، ادعاهای وب ، پیکربندی از طریق Env Vars.
  • هیچ زمان بندی سخت و بدون ثبت نام وجود ندارد.
  • آزمون شامل تمام اقدامات CRUD و بررسی وضعیت پس از حذف است.

Claude 3.7 Sonnet (تفکر)

کیفیت کد

  • از یک مدل شیء صفحه به خوبی ساختار یافته (ConduitPage) استفاده می کند ، یاب ها و اقدامات را به عنوان روش/گیرنده کلاس گروه بندی می کند.
  • محاصره خوب و قابلیت استفاده مجدد ؛ همه تعامل صفحه انتزاعی است.
  • از مکان های مبتنی بر نقش (GetByRole) استفاده می کند و از انتخاب کنندگان سخت کد جلوگیری می کند.
  • قبل از ورود به سیستم ، وضعیت ورود به سیستم را بررسی کنید.

خوانایی

  • نام های روش شفاف و توصیفی.
  • قالب بندی مداوم و نامگذاری متغیر.
  • حداقل نظرات ، اما کد خود توضیحی است.

بهترین روشها

  • بهترین شیوه های نمایشنامه‌نویس را دنبال می کند: ادعاهای وب در اولین ، یاب های مبتنی بر نقش و مدولار بودن.
  • از متغیرهای محیط برای پیکربندی استفاده می کند.
  • هیچ زمان بندی سخت و بدون ثبت نام وجود ندارد.
  • سناریوی آزمون پایان به پایان و قابل خواندن است.

SWE-1

کیفیت کد

  • یک مدل شیء صفحه (ConduitApp) را با گیرنده های خصوصی برای مکان یاب ها و روش های اقدامات پیاده سازی می کند.
  • محاصره و مدولار خوب.
  • از انتخاب کنندگان مبتنی بر نقش و ادعاهای وب استفاده می کند.
  • برای تنظیمات/اشکال ، قلاب های beforeall/afterally وجود دارد.

خوانایی

  • نام های روش شفاف و توصیفی.
  • قالب بندی مداوم و ساختار منطقی.

بهترین روشها

  • توصیه های نمایشنامه نویسی را دنبال می کند: مدولار ، انتخاب کنندگان مبتنی بر نقش ، ادعاهای وب.
  • از متغیرهای محیط استفاده می کند.
  • آزمون جامع است و تمام عملیات CRUD را بررسی می کند.

Xia-3

کیفیت کد

  • یک مدل شیء صفحه (ConduitApp) را پیاده سازی می کند اما با تمام داده های موجود در داخل روش ها.
  • هر عمل یک روش واحد است. بدون پارامتر.
  • از انتخاب کنندگان مبتنی بر نقش و ادعاهای وب استفاده می کند.
  • برای استفاده مجدد کمتر انعطاف پذیر است.

خوانایی

  • ساده و قابل خواندن ، اما مقیاس پذیر تر.
  • نام روش ها واضح است ، اما برای استفاده مجدد از پارامتر شدن برخوردار نیست.
  • نظرات حداقل

بهترین روشها

  • از بهترین شیوه های نمایشنامه نویس برای انتخاب کنندگان و ادعاها استفاده می کند.
  • هیچ مدولار سازی داده های آزمون وجود ندارد.
  • مراحل آزمون واضح و متوالی است.

Deepseek R1

کیفیت کد

  • مدل شیء بدون صفحه ؛ همه اقدامات در آزمون خطی هستند.
  • از ثابت ها برای اعتبارنامه و داده های مقاله استفاده می کند.
  • به طور مستقیم در مراحل تست از مکان های نمایشنامه نویس استفاده می کند.
  • فاقد انتزاع و قابلیت استفاده مجدد است.

خوانایی

  • ساده ، قابل خواندن ، اما برای تست های بزرگتر قابل حفظ است.
  • نام های متغیر واضح هستند.
  • آزمون به بخش های منطقی تقسیم می شود (ایجاد/ویرایش/حذف).

بهترین روشها

  • از انتخاب کنندگان مبتنی بر نقش و ادعاهای وب استفاده می کند.
  • بدون مدولار سازی ؛ برای سوئیت های بزرگتر مقیاس پذیر نیست.
  • هیچ نظری وجود ندارد ، اما ساختار آن آسان است.

جدول خلاصه برای POM

الگو محاصره انعطاف پذیری خوانایی خطر استحکام سطح API
گیرنده واسطه عالی عالی کم واسطه
گیرنده های خصوصی عالی واسطه واسطه کم کم
اشیاء برای یاب دهندگان کم عالی واسطه واسطه عالی
روشها به طور مستقیم عالی کم عالی کم کم

جدول مقایسه ای

پرونده POM استفاده شده انتزاع خوانایی بهترین روشها مقیاس پذیری نظرات به روزرسانی های دستی
Claude 3.7 Sonnet (تفکر) بله عالی عالی بله عالی خوش ساخت کم
Deepseek-R1 هیچ کم واسطه جزئي کم منطق درون خطی کم
GPT-4.1 بله عالی عالی بله عالی خوش ساخت کم
SWE-1 بله عالی عالی بله عالی قلاب های مورد استفاده ، تنظیم قدیمی/اشک عالی
Xia-3 بله واسطه واسطه بله واسطه بدون پارامتر واسطه

پایان

از آنجا که نتیجه Claude 4 Opus و Claude 4 Sonnet بهتر از GPT-4.1 و Claude 3.7 Sonnet قابل توجه نیستند ، من به دلیل هزینه های بالاتر آنها را توصیه نمی کنم.

بهترین به طور کلی (کیفیت کد و بهترین شیوه ها):

  • GPT-4.1 و Claude 3.7 غزل (تفکر) برای مدل های شیء صفحه ساخت یافته ، مدولار بودن و پایبندی به بهترین شیوه های نمایشنامه نویس متمایز هستند. هر دو بسیار قابل حفظ و قابل خواندن هستند ، با انتزاع و مقیاس پذیری خوبی.
  • SWE-1 نیز قوی است ، اما می تواند تنظیم/اشکال مرورگر قدیمی را بهبود بخشد. نیاز به به روزرسانی دستی آزمون/یاب ها بعد از نسل وجود داشت.

قابل خواندن برای تست های کوچک:

  • Deepseek R1 و Xai Grok-3 قابل خواندن هستند و برای سناریوهای کوچک و ساده قابل خواندن هستند اما فاقد انتزاع و مقیاس پذیری برای مجموعه های بزرگتر هستند.

بهترین سوئیت های اتوماسیون بزرگ:

  • GPT-4.1 و Claude 3.7 غزل (تفکر) به دلیل قابلیت حفظ ، مدولار بودن و گسترش آنها ترجیح داده می شوند.

چه چیزی بعدی؟

دنیای توسعه و آزمایش نرم افزار به سرعت در حال تغییر است ، بنابراین یادگیری و آزمایش را ادامه دهید.
لطفا ، از شروع مکالمه در مورد آزمون یا نتیجه آن دریغ نکنید.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا