گزارش حادثه خرابی Budgtr. – انجمن DEV

ما می خواهیم از همه کاربران خود به دلیل خرابی هفته گذشته عذرخواهی کنیم. ما ناراحتیای را که این امر ایجاد میکرد درک میکنیم، و بررسیها و اصلاحات لازم را انجام دادهایم تا اطمینان حاصل کنیم که این اتفاق دوباره تکرار نمیشود.
ما گزارش حادثهای از خرابی رخ داده در 5 ژوئن 2024 ارائه کردهایم. همچنین پاسخ ما به این موضوع توضیح داده شده است.
خلاصه موضوع
این مشکل از ساعت 6:03 صبح تا 8:52 صبح به وقت WAT شروع شد، درخواستها به وبسایت منجر به خطای 500 شد زیرا کاربران در این مدت نمیتوانستند به این سرویس دسترسی داشته باشند. علت این قطعی یک تغییر آزمایش نشده بود که به تولید فشار داده شد که منجر به یک باگ شد.
جدول زمانی (تمام وقت آفریقای غربی)
- 6:03 صبح – تغییر جدید تحت فشار قرار گرفت.
- 6:55 صبح – اولین رخداد خاموشی وارد سیستم شد.
- 6:56 – سیستم مانیتورینگ ما به ما هشدار داد.
- 7:20 صبح – تغییر ناموفق برگشت خورد.
- 7:30 صبح – تغییر موفقیت آمیز برگشت
- 8:00 صبح – تغییر جدید آزمایش شد و به تولید رسید.
- 8:30 صبح – سرور دوباره راه اندازی شد.
- 8:52 صبح – سیستم در عملکرد 100٪ بازیابی شد.
علت ریشه ای
در ساعت 6:03 صبح یک ویژگی جدید که برای توسعه در تیم مورد بحث و تایید قرار گرفت، بدون آزمایش به تولید فرستاده شد. ویژگی جدید یک زیرساخت پرداخت است که Budgetr از آن استفاده خواهد کرد، اما APIهایی که باید مصرف شوند به درستی مصرف نشدند که منجر به شکسته شدن کل پایه کد شد که سپس باعث خطای 500 شد.
حل و فصل و بازیابی
در ساعت 6:56 صبح سیستم نظارتی ما به مهندسان ما از این خطا اطلاع داد که بلافاصله تشدید شد. در ساعت 7:20 صبح مهندسان ما سعی کردند این تغییر را به عقب برگردانند تا آن را به صورت محلی برطرف کنند، اما به دلیل برخی محدودیتهای مجوز شکست خورد.
در ساعت 7:30 صبح، مجوز دسترسی مناسب اعطا شد و مهندسان ما توانستند با موفقیت تغییرات را برگردانند. مهندسان ما مستقیماً سر کار رفتند و خطا را برطرف کردند، پس از فشار دادن آن به محیط آزمایش، فرآیند آزمایش انجام شد و نتایج مثبت اعلام شد.
در ساعت 8:00 صبح مهندسان ما به تولید فشار آوردند. برای اطمینان از ارائه خدمات روان، سرورها را در ساعت 8:30 صبح دوباره راه اندازی کردیم و ثابت شد که سرویس ما در ساعت 8:52 صبح 100٪ ثابت است.
اقدامات اصلاحی و پیشگیرانه
در 4 روز گذشته، بررسی داخلی و تجزیه و تحلیل قطعی را انجام داده ایم. اقدامات زیر برای اطمینان از عدم تکرار این مشکل انجام خواهد شد:
- تمام ویژگی های جدید به طور پیش فرض به محیط آزمایشی منتقل می شوند.
- فقط پرسنل مجاز می توانند تغییرات آزمایش شده و تایید شده را در تولید اعمال کنند.
- اطلاعات دقیق در مورد ویژگی ها یا تغییراتی که برای آزمایش تحت فشار قرار می گیرند باید در پیام های commit ارائه شوند.
Budgetr متعهد است که خدمات یکپارچه را برای همه مشتریان خود تضمین کند و در نتیجه ما به طور مداوم فناوری و فرآیندهای عملیاتی خود را برای جلوگیری از این مسائل بهبود می دهیم. ما صمیمانه از ناراحتیای که این موضوع برای شما یا کسبوکارتان ایجاد کرده عذرخواهی میکنیم و از صبر و درک شما قدردانی میکنیم.
خالصانه،
تیم بودجه.