پایگاه خبری راه پرداخت دارای مجوز به شماره ۷۴۵۷۲ از وزارت فرهنگ و ارشاد اسلامی و بخشی از «شبکه عصر تراکنش» است. راه پرداخت فعالیت خود را از دوم اردیبهشتماه ۱۳۹۰ شروع کرده و اکنون پرمخاطبترین رسانه ایران در زمینه فناوریهای مالی، بانکداری و پرداخت و استارتآپهای فینتک است.
گزارش اولیه ابرآروان از حمله و روند بازگرداندن سرویسهای مشتریان
در روزهای پایانی اسفند ۱۳۹۹، زیرساخت رایانش ابری آروان با حملات سایبری مواجه شد که طبق گفته این شرکت هدف این حمله تخریب و حذف اطلاعات مشتریان بود. حالا با گذشت چند روز از این اتفاق و حواشی به وجود آمده در خصوص حمله سایبری به این زیرساخت ابری، ابر آروان گزارش اولیه رسمی خود در خصوص این اتفاق را ارایه کرد.
به گزارش روابط عمومی ابر آروان، این حملات در فعالیت سایر محصولات آروان شامل DNS، CDN، ویدیو پلتفرم، فضای ذخیرهسازی ابری، همچنین رایانش ابری در سایر دیتاسنترهای ابر آروان اختلالی ایجاد نکرده و حدود ۱۶٪ از مشتریان آروان را متاثر کرده است.
نشانههایی از این حملات در روزهای یکشنبه و دوشنبه ۲۴ و ۲۵ اسفند دیده و منجر به بروز اختلالات محدودی شد اما با آغاز حملات گسترده و متفاوت جدید در شامگاه سهشنبه و آسیبرسانی به دیتای مشتریان در این دیتاسنتر، بهمنظور جلوگیری از پیشروی آسیبرسانی، تمام دسترسیها قطع شد.
ابرآروان در این گزارش از تمام کسبوکارهای آسیبدیده در این مشکل عذر خواهی کرد و گفت: «آگاهیم که قطعی و اختلال سرویس در پیک ترافیکی شب عید، چه پیامدهایی برای آنها به همراه داشته است و از بابت این اتفاق متاسفیم.»
به گفته ابر آروان، در فرآیند این بحران تلاش شده روند بروز مشکل و فرآیند حل آن از راههای ایمیل، پیامک، سایت و بلاگ، همچنین شبکههای اجتماعی ابر آروان به آگاهی کاربران برسد.
ابر آروان بهعلت اینکه همچنان در حال کالبدشکافی (Forensics) ابعاد نفوذ است، امکان به اشتراکگذاری اطلاعات فنی نوع حمله را ندارد. گزارش فنی نوع حمله پس از پایان فرآیند کالبدشکافی با جزییات کامل منتشر خواهد شد.
۲۴ اسفند، آغاز ماجرا
ساعت ۱۱:۳۳ یکشنبه شب، یک incident روی دو سوییچ در یک VPCدر دیتاسنتر IR-THR-AT1 ابر آروان مشاهده شد، برآورد اولیه تیم فنی اشکال سختافزاری بود که با بازیابی سوییچها مشکل برطرف شد.
شناسایی امکان حملهی سایبری
در ساعت ۴ صبح دوشنبه، دوباره اختلال روی سوییچهای IR-THR-AT1 اتفاق افتاد. بهدلیل تکرار الگو، احتمال حمله سایبری داده شد.
از این زمان تا ساعت ۷ صبح روز بعد، تیمهای ابر آروان روی موضوع کار کردند و در چند ساعت اول موفق شدند سیستم را به حالت طبیعی برگردانند.
سپس برای جلوگیری از حملهی احتمالی، تغییراتی در شبکه مدیریتی دیتاسنترهای IR-THR-AT1 و IR-THR-MN1 و NL-AMS-SR1 انجام شد، اما کارشناسانی که به دیتاسنتر IR-THR-AT1 اعزام شده بودند بهدلیل خستگی، در اعمال تغییرات در شبکهی این دیتاسنتر دچار اشتباه شدند و فقط بخشی از تغییرات را اعمال کردند.
۲۶ اسفند، حمله گسترده و آسیبرسانی به دیتای مشتریان
در حالیکه تیمهای امنیتی به هر دو دیتاسنتر برای بررسی دقیق اعزام شده بودند در ساعت ۵:۳۰ عصر بهشکل ناگهانی از طریق همان بخشی از شبکه مدیریتی که همچنان فعال بوده، دیتاسنتر IR-THR-AT1 مورد حمله قرار میگیرد.
این حملات ساعت ۸ شب با حجم بسیار بالایی ادامه پیدا میکند و تعدادی از سرورهای ذخیرهسازی و پردازشی با هدف حذف کامل اطلاعات مورد حمله قرار میگیرند. با آغاز آسیبرسانی به دیتای مشتریان، تمام دسترسیها به این دیتاسنتر قطع شد تا از توسعهی آسیبرسانی جلوگیری شود؛ بلافاصله اینترنت و شبکهی مدیریتی، هر دو بهشکل کامل قطع و علاوهبر کارشناسان امنیتی، کارشناسان و اعضای تیم فنی به محل دیتاسنتر اعزام میشوند تا بدون نیاز به دسترسی از راه دورکه ریسک گسترش یا تکرار حمله را افزایش میداد، به بررسی موضوع بپردازند.
در این حملات، هکر هیچگونه دسترسی به دیتای مشتریان ابر آروان پیدا نکرد و با توجه به نوع ذخیرهسازی اطلاعات در آن لایه، تنها موفق به آسیب زدن به اطلاعات و پاک کردن بخشی از دیتا شده بود.
ابر آروان برای حفظ پایداری، از هر داده (آبجکت) سه نسخه مختلف در سه دیسک متفاوت در داخل سه سرور مختلف نگهداری میکند، تا اگر یک یا چند دیسک یا حتا یک یا چند سرور از دسترس خارج شوند، به دادهها آسیبی وارد نشود. اما در حملهی اتفاق افتاده، بهشکل همزمان تعداد بالایی سرور مورد آسیب قرار گرفتند، این موضوع سبب شد، علاوهبر حذف حدود ۱۰۰ ترابایت از یک پتابایت اطلاعات این دیتاسنتر، برخی اطلاعات، هر ۳ نسخه خود را از دست بدهند.
در تحلیل اولیه مشخص شد که از مجموع بیش از ۹۷درصد اطلاعات، حداقل یک نسخه از اطلاعات وجود دارد. اما بهدلیل توزیعشدگی سهدرصد اطلاعات حذف شده در تمام کلاستر، زیرساخت ذخیرهسازی در ریسک از دست رفتن کل اطلاعات قرار گرفت.
تشکیل کمیتهی بحران
در کنار تیمهای پشتیبانی، مشتریان و اطلاعرسانی، در این مرحله، چهار تیم فنی شکل گرفت:
- تیم یک: مسئول مراقبت از دیتاسنتر IR-THR-MN1 برای پیشگیری از اتفاق مشابه
- تیم دو: کار متمرکز روی استورج دیتاسنتر IR-THR-AT1 برای برگرداندن ۱۰۰ ترابایت اطلاعات و پایدارسازی کلاستر ذخیرهسازی
- تیم سه: کار متمرکز روی کل زیرساخت رایانش ابری در IR-THR-AT1 تا بهمحض رفع اشکال فضای ذخیرهسازی، سرویس دوباره به مدار برگردد.
- تیم چهار: مسئول کالبدشکافی (Forensics) و ایمنسازی (Hardening)
با پیشبینی آسیب به دیتای کاربران و زمانبر بودن بازگشت سرویس، از کاربران خواسته شد برنامه Disaster Recovery خود را فعال کنند تا اگر از دادههای خود نسخه پشتیبان تهیه کردهاند، با استفاده از آن در سایر دیتاسنترهای آروان یا دیگر فراهمکنندگان زیرساخت، سرویس خود را مجدد راهاندازی کنند.
بهرغم تاکید به «پشتیبانگیری اطلاعات حیاتی از سوی مشتری» در متن «شروط فنی استفاده از خدمات زیرساخت رایانش ابری آروان»، بسیاری از کاربران با آروان تماس گرفته و اعلام کردند که نسخهی پشتیبانی در دست ندارند.
۲۷ اسفند، بازگشت اطلاعات
پس از حدود ۳۰ ساعت کار پراسترس، با فیکسکردن و یکپارچهسازی داده در سطح کلاستر، امکان دسترسی به اطلاعات در ساعت ۱۰:۳۰ صبح چهارشنبه فراهم شد. در این زمان حدود ۹۷.۳درصد از اطلاعات برگردانده شده بود.
از این نقطه، کار سختتر تیم آغاز شد، چون آسیب و اختلال آن سهدرصد اطلاعات میتوانست سبب از بین رفتن کل کلاستر و بازیابی ناموفق شود.
از این زمان، تیم بر اصلاح یکپارچگی داده متمرکز شد تا کلاستر بالا بیاید.
- مشکل نخست: باید دقت شود که این سهدرصد دیتای از دست رفته، مربوط به سهدرصد از مشتریان نبود بلکه سهدرصد از اطلاعات تمام مشتریان این دیتاسنتر است؛ پس احتمالا اکثریت مشتریان بخش ناچیزی از اطلاعاتشان آسیبدیده بود. از طرفی گاهی این بخش ناچیز ممکن است با اثرگذاری بر پارتیشن بوت مانع بالا آمدن ابرک شود یا با ایجاد مشکل در پارتیشن سیستم، کار سیستمعامل را با اخلال مواجه کند یا با قرار گرفتن در دیتابیس کاربر، آن را از کارکرد عادی بازدارد.
- مشکل دوم: بهطور کلی قطع ناگهانی سیستمعاملها از استورج سبب افزایش احتمال آسیبدیدگی میشود.
۲۸ اسفند، حل مشکلات در ریکاوری و بازکردن دسترسی مشتریان/ سطح آسیب به سرورهای ابری
تا ساعت ۴ صبح روز پنجشنبه دو مشکل گفته شده تا حدودی حل شدند؛ کلاستر بالا آمد و تیمهای دیگر هم کارشان تمام شده بود. از این ساعت، بهمرور دسترسی مشتریان به سرورهای ابری باز شد.
متاسفانه با بازشدن دسترسی به پاپسایت و بررسی دقیقتر وضعیت ابرکها مشخص شد حذف کمتر از سه درصد از اطلاعات کل دیتاسنتر، سبب تاثیرگذاری روی بخش گستردهای از سرورهای ابری شده است.
میزان سکتورهای آسیبدیده در Block Storage متصل به ابرک، همچنین نوع فایلسیستم، سیستمعامل و پایگاه دادهها سبب میشد که سطح آسیبپذیری طیف گستردهای داشته باشد.
در چنین موقعیت، هر کدام از سیستمعاملها رفتار متفاوتی دارند، از بین سیستمعاملهای ویندوز و نسخ مختلف لینوکس و فایلسیستمهایشان، برخی سادهتر و برخی با سختی بیشتر ریکاوری میشوند. همزمان با بهکارگیری روشهای بازیابی سیستمعاملها، مقاله آموزشی آنها نیز منتشر میشد.
در میان فایلسیستمهای مشتریان ابر آروان، EXT4 سازگارتر و XFS و NTFS آسیبپذیرتر بودند.
در این لحظه امکان اعلام آمار دقیق از سطح آسیب به ابرکها وجود ندارد، بخشی از ابرکها بدون هیچاقدامی امکان استفاده داشتند، بخش دیگری با Reboot و درنهایت ترمیم boot loader به مرحلهی استفاده میرسیدند و برخی نیاز به ترمیم فایلسیستم یا ریکاوریهای پیشرفتهتر دارند.
افزایش ۴ برابری ظرفیت تیم پشتیبانی به ۸۰ نفر
در بخش دیگر این گزارش آمده است، از ظهر روز چهارشنبه، تمام خطوط تلفنی ابر آروان و تمام ظرفیت تیم پشتیبانی برای پاسخگویی به مشتریان بهکار گرفته شده بودند. با بازگشایی دسترسی کاربران در صبح روز پنجشنبه، ظرفیت تیم پشتیبانی با حمایت تیمهای فنی و تیمهای کوچ ابری، چهار برابر شد.
مشتریان فعال ابر آروان در دیتاسنتر IR-THR-AT1 در حدود ۷۰۰۰سرور ابری داشتند که تعداد ۱۱۰۰ سرور ابری از سوی مشتریان برای بررسی به تیمهای فنی ابر آروان ارجاع شدند. از این تعداد، تاکنون مشکل ۳۰ درصد حل شده و مابقی همچنان در فرآیند حل مساله قرار دارند.
بهرغم افزایش ظرفیت و پاسخگویی ۲۴ ساعته، حجم بالای مشتریان نیازمند کمک سبب شد فرآیند پاسخگویی و حل مسالهی آنان با کندی همراه باشد. در ادامه مشکلات پیشآمده در کلاستر در مقاطعی، فرآیند بازیابی را متوقف کرد.
پرداخت جبران خسارت (SLA) به تمام مشتریان زیاندیده با فرض حل مشکلات
با تصور پایداری کلاستر ذخیرهسازی در روز پنجشنبه، محاسبه مدت زمان دردسترس نبودن سرویس به نسبت هزینه ماهانه هر یک از مشتریان انجام، مبلغ آن محاسبه و بالاتر از سقف جبران خسارت تعهد شده، به کیف پول کاربران واریز شد.
بهعلاوه مبلغی که در روزهای قطعی از کیف پول کاربران کم شده بود، به حساب آنان برگردانده شد.
همچنین فضای ذخیرهسازی ابری تا پایان فروردین ۱۴۰۰ بهشکل رایگان در اختیار تمام مشتریان دیتاسنتر IR-THR-AT1 ابر آروان قرار گرفت تا در فرآیند پشتیبانگیری با مشکل فضای ذخیرهسازی مواجه نباشند.
نیاز به یادآوری است که قرارداد جبران خدمت متناظر برای جبران زیان زیرساختی است که سطح و میزان پوشش آن در شرایط استفاده و قراردادهای ابر آروان آمده است. اما ابر آروان براساس تجربه این اتفاق و عدم پشتیبانگیری دیتا از سوی تعداد بالایی از مشتریان، در تلاش است مجموعه اقدامات پیشگیرانهای را بهمنظور سهولت تهیه نسخه پشتیبان، از سوی مشتریان در آینده فراهم کند.
متاسفانه روند روزهای آتی مشخص کرد که کلاستر ذخیرهسازی با مشکلاتی همراه است.
برای آن دسته از مشتریانی که پس از بازگشت هزینهی روزهای قطعی، همچنان برای دسترسی به ابرک خود با اختلال روبهرو هستند، پس از پایان حل مشکل، محاسبه مجدد انجام و به حساب آنان واریز خواهد شد.
۲۹ اسفند، حجم درخواست بسیار بالای کاربران همزمان برای بازیابی اطلاعات و بروز مشکلات زیرساختی
روز جمعه، همزمان حجم بالایی از کاربران برای درست کردن فایلسیستم یا پشتیبانگیری دیتا مشغول به کار شدند. بهدلیل مشکلات پیشآمده و ریکاور کردن کلاستر ذخیرهسازی در یک فشار زمانی کوتاه، کلاستر موفق به تهیهی سه نسخه از تمام دادهها نشده بود، همچنین برای ساخت ابرکهای جدید برای انتقال اطلاعات روی آن نیاز به فضای بیشتر بود و در نتیجه باید ظرفیت کلاستری که بهسختی آسیبدیده بود نیز افزایش پیدا میکرد. برای رفع این مشکل، به میزان ۴۰۰ ترابایت استورج به کلاستر اضافه شد.
تزریق منابع جدید، یعنی وزندهی دوبارهی دیسکها (Rebalance ) که سبب درگیری شدید زیرساخت و قفل شدن کلاستر میشود. به همین دلیل، در روز ۲۹ اسفند، وضعیت بحرانیتر شد.
کمک تیمهای آلمانی و ترکی و تداوم وضعیت کلاستر
در این گزارش همچنین آمده است، در روزهای شنبه و یکشنبه، تلاش برای بهبود زیرساخت بهمنظور انجام سریعتر ریکاوری در حال انجام بود، با توجه به اینکه پارامترهای مختلفی از جمله زیرساخت شبکه، پارامترهای سیستمعامل و کانفیگ زیرساخت ذخیرهسازی بهطور مشترک نیازمند تغییر و بهبودسازی بود، فرآیند بازیابی سرورهای ابری متوقف و تمام تمرکز روی بهبود زیرساخت گذاشته شد.
در این مرحله با توجه به حجم بسیار بالای ریکاوری و فشار روی کلاستر و عدم تاثیرگذاری کانفیگهای انجام شده از تیمهای متخصص آلمانی و ترکی برای کمک استفاده شد که اقدامات آنان نیز تاثیر چشمگیری در بهبود وضعیت نداشت.
۲ فروردین، اقدامات اولیه برای راهاندازی کلاستر جدید
بهطور خلاصه میتوان گفت مشکل اصلی کلاستر ذخیرهسازی تاثیر تسلسل دو مشکل ReMirroring-Storm و یک Memory Leak در لایهی نرمافزاری Ceph در شرایط خاص است، این مشکل همافزا سبب به اغما رفتن کلاستر میشود.
پس از تلاشهای ناموفق تیم ذخیرهسازی آروان، همچنین بینتیجه ماندن نظرات مشاوران داخلی و خارجی، تیم System Development آروان در تلاشاند با Patch کردن این مشکل نرمافزاری و همزمان افزایش منابع، مشکل را حل کنند.
با موفقیت آمیز بودن این فرآیند، آروان کد اصلاحی را بهشکل متنباز منتشر خواهد کرد.
همزمان که این فرآیندها برای ریکاوری در حال انجام است، یک تیم مستقل در حال برنامهریزی برای راهاندازی کلاستر جدید و انتقال دیتاهای ممکن از کلاستر آسیبدیده به کلاستر جدید است. با توجه به حجم کار زیرساختی، این فرآیند احتمالن تا پایان هفتهی اول فروردین ادامه پیدا خواهد کرد.
اقدامات پیشرو
در بخش پایانی این گزارش آمده است، پس از حل مشکل کلاستر ذخیرهسازی، به مشتریان درگیر اطلاعرسانی خواهد شد تا اقدامات مرتبط با پشتیبانگیری را انجام دهند.
ابر آروان مجموعه اقداماتی برای پیشگیری از بروز حوادث اینچنینی، همچنین موارد اصلاحی در دست کار دارد که پس از حل مشکل تمام مشتریان و رسیدن به وضعیت پایدار در گزارش تکمیلی آنها را به آگاهی خواهد رساند.