برنامه نویسی

گزارش حادثه خرابی Budgtr. – انجمن DEV

ما می خواهیم از همه کاربران خود به دلیل خرابی هفته گذشته عذرخواهی کنیم. ما ناراحتی‌ای را که این امر ایجاد می‌کرد درک می‌کنیم، و بررسی‌ها و اصلاحات لازم را انجام داده‌ایم تا اطمینان حاصل کنیم که این اتفاق دوباره تکرار نمی‌شود.

ما گزارش حادثه‌ای از خرابی رخ داده در 5 ژوئن 2024 ارائه کرده‌ایم. همچنین پاسخ ما به این موضوع توضیح داده شده است.

خلاصه موضوع

این مشکل از ساعت 6:03 صبح تا 8:52 صبح به وقت WAT شروع شد، درخواست‌ها به وب‌سایت منجر به خطای 500 شد زیرا کاربران در این مدت نمی‌توانستند به این سرویس دسترسی داشته باشند. علت این قطعی یک تغییر آزمایش نشده بود که به تولید فشار داده شد که منجر به یک باگ شد.

جدول زمانی (تمام وقت آفریقای غربی)

  • 6:03 صبح – تغییر جدید تحت فشار قرار گرفت.
  • 6:55 صبح – اولین رخداد خاموشی وارد سیستم شد.
  • 6:56 – سیستم مانیتورینگ ما به ما هشدار داد.
  • 7:20 صبح – تغییر ناموفق برگشت خورد.
  • 7:30 صبح – تغییر موفقیت آمیز برگشت
  • 8:00 صبح – تغییر جدید آزمایش شد و به تولید رسید.
  • 8:30 صبح – سرور دوباره راه اندازی شد.
  • 8:52 صبح – سیستم در عملکرد 100٪ بازیابی شد.

علت ریشه ای

در ساعت 6:03 صبح یک ویژگی جدید که برای توسعه در تیم مورد بحث و تایید قرار گرفت، بدون آزمایش به تولید فرستاده شد. ویژگی جدید یک زیرساخت پرداخت است که Budgetr از آن استفاده خواهد کرد، اما APIهایی که باید مصرف شوند به درستی مصرف نشدند که منجر به شکسته شدن کل پایه کد شد که سپس باعث خطای 500 شد.

حل و فصل و بازیابی

در ساعت 6:56 صبح سیستم نظارتی ما به مهندسان ما از این خطا اطلاع داد که بلافاصله تشدید شد. در ساعت 7:20 صبح مهندسان ما سعی کردند این تغییر را به عقب برگردانند تا آن را به صورت محلی برطرف کنند، اما به دلیل برخی محدودیت‌های مجوز شکست خورد.

در ساعت 7:30 صبح، مجوز دسترسی مناسب اعطا شد و مهندسان ما توانستند با موفقیت تغییرات را برگردانند. مهندسان ما مستقیماً سر کار رفتند و خطا را برطرف کردند، پس از فشار دادن آن به محیط آزمایش، فرآیند آزمایش انجام شد و نتایج مثبت اعلام شد.

در ساعت 8:00 صبح مهندسان ما به تولید فشار آوردند. برای اطمینان از ارائه خدمات روان، سرورها را در ساعت 8:30 صبح دوباره راه اندازی کردیم و ثابت شد که سرویس ما در ساعت 8:52 صبح 100٪ ثابت است.

اقدامات اصلاحی و پیشگیرانه

در 4 روز گذشته، بررسی داخلی و تجزیه و تحلیل قطعی را انجام داده ایم. اقدامات زیر برای اطمینان از عدم تکرار این مشکل انجام خواهد شد:

  1. تمام ویژگی های جدید به طور پیش فرض به محیط آزمایشی منتقل می شوند.
  2. فقط پرسنل مجاز می توانند تغییرات آزمایش شده و تایید شده را در تولید اعمال کنند.
  3. اطلاعات دقیق در مورد ویژگی ها یا تغییراتی که برای آزمایش تحت فشار قرار می گیرند باید در پیام های commit ارائه شوند.

Budgetr متعهد است که خدمات یکپارچه را برای همه مشتریان خود تضمین کند و در نتیجه ما به طور مداوم فناوری و فرآیندهای عملیاتی خود را برای جلوگیری از این مسائل بهبود می دهیم. ما صمیمانه از ناراحتی‌ای که این موضوع برای شما یا کسب‌وکارتان ایجاد کرده عذرخواهی می‌کنیم و از صبر و درک شما قدردانی می‌کنیم.

خالصانه،
تیم بودجه.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا