راه پرداخت
راه پرداخت؛ رسانه فناوری‌های مالی ایران

گزارش اولیه ابرآروان از حمله و روند بازگرداندن سرویس‌های مشتریان

در روزهای پایانی اسفند ۱۳۹۹، زیرساخت رایانش ابری آروان با حملات سایبری مواجه شد که طبق گفته این شرکت هدف این حمله تخریب و حذف اطلاعات مشتریان بود. حالا با گذشت چند روز از این اتفاق و حواشی به وجود آمده در خصوص حمله سایبری به این زیرساخت ابری، ابر آروان گزارش اولیه رسمی خود در خصوص این اتفاق را ارایه کرد.

به گزارش روابط عمومی ابر آروان، این حملات در فعالیت سایر محصولات آروان شامل DNS، CDN، ویدیو پلتفرم، فضای ذخیره‌سازی ابری، همچنین رایانش ابری در سایر دیتاسنتر‌های ابر آروان اختلالی ایجاد نکرده و حدود ۱۶٪ از مشتریان آروان را متاثر کرده است.

نشانه‌هایی از این حملات در روزهای یک‌شنبه و دوشنبه ۲۴ و ۲۵ اسفند دیده و منجر به بروز اختلالات محدودی شد اما با آغاز حملات گسترده و متفاوت جدید در شامگاه سه‌شنبه و آسیب‌رسانی به دیتای مشتریان در این دیتاسنتر، به‌منظور جلوگیری از پیش‌روی آسیب‌رسانی، تمام دسترسی‌ها قطع شد.

ابرآروان در این گزارش از تمام کسب‌وکارهای آسیب‌دیده در این مشکل عذر خواهی کرد و گفت: «آگاهیم که قطعی و اختلال سرویس در پیک ترافیکی شب عید، چه پیامدهایی برای آن‌ها به همراه داشته است و از بابت این اتفاق متاسفیم.»

به گفته ابر آروان، در فرآیند این بحران تلاش شده روند بروز مشکل و فرآیند حل آن از راه‌های ایمیل، پیامک، سایت و بلاگ، هم‌چنین شبکه‌های اجتماعی ابر آروان به آگاهی کاربران برسد.

ابر آروان به‌علت این‌که هم‌چنان در حال کالبدشکافی (Forensics) ابعاد نفوذ است، امکان به اشتراک‌گذاری اطلاعات فنی نوع حمله را ندارد. گزارش فنی نوع حمله پس از پایان فرآیند کالبدشکافی با جزییات کامل منتشر خواهد شد.


۲۴ اسفند، آغاز ماجرا


ساعت ۱۱:۳۳ یک‌شنبه شب، یک incident روی دو سوییچ در یک  VPCدر دیتاسنتر IR-THR-AT1 ابر آروان مشاهده شد، برآورد اولیه تیم فنی اشکال سخت‌افزاری بود که با بازیابی سوییچ‌ها مشکل برطرف شد.


شناسایی امکان حمله‌ی سایبری


در ساعت ۴ صبح دوشنبه، دوباره اختلال روی سوییچ‌های IR-THR-AT1 اتفاق افتاد. به‌دلیل تکرار الگو، احتمال حمله‌ سایبری داده شد.

از این زمان تا ساعت ۷ صبح روز بعد، تیم‌های ابر آروان روی موضوع کار کردند و در چند ساعت اول موفق شدند سیستم را به حالت طبیعی برگردانند.

سپس برای جلوگیری از حمله‌ی احتمالی، تغییراتی در شبکه‌ مدیریتی دیتاسنترهای  IR-THR-AT1 و IR-THR-MN1 و NL-AMS-SR1 انجام شد، اما کارشناسانی که به دیتاسنتر IR-THR-AT1 اعزام شده بودند به‌دلیل خستگی، در اعمال تغییرات در شبکه‌ی این دیتاسنتر دچار اشتباه شدند و فقط بخشی از تغییرات را اعمال کردند.


۲۶ اسفند، حمله‌ گسترده و آسیب‌رسانی به دیتای مشتریان


در حالی‌که تیم‌های امنیتی به هر دو دیتاسنتر برای بررسی دقیق اعزام شده بودند در ساعت ۵:۳۰ عصر به‌شکل ناگهانی از طریق همان بخشی از شبکه‌ مدیریتی که هم‌چنان فعال بوده، دیتاسنتر IR-THR-AT1 مورد حمله قرار می‌گیرد.

این حملات ساعت ۸ شب با حجم بسیار بالایی ادامه پیدا می‌کند و تعدادی از سرورهای ذخیره‌سازی و پردازشی با هدف حذف کامل اطلاعات مورد حمله قرار می‌گیرند. با آغاز آسیب‌رسانی به دیتای مشتریان، تمام دسترسی‌ها به این دیتاسنتر قطع شد تا از توسعه‌ی آسیب‌رسانی جلوگیری شود؛ بلافاصله اینترنت و شبکه‌ی مدیریتی، هر دو به‌شکل کامل قطع و علاوه‌بر کارشناسان امنیتی، کارشناسان و اعضای تیم فنی به محل دیتاسنتر اعزام می‌شوند تا بدون نیاز به دسترسی از راه دورکه ریسک گسترش یا تکرار حمله را افزایش می‌داد، به بررسی موضوع بپردازند.

در این حملات، هکر هیچ‌گونه دسترسی به دیتای مشتریان ابر آروان پیدا نکرد و با توجه به نوع ذخیره‌سازی اطلاعات در آن لایه، تنها  موفق به آسیب زدن به اطلاعات و پاک کردن بخشی از دیتا شده بود.

ابر آروان برای حفظ پایداری، از هر داده (آبجکت) سه نسخه‌ مختلف در سه دیسک متفاوت در داخل سه سرور مختلف نگهداری می‌کند، تا اگر یک یا چند دیسک یا حتا یک یا چند سرور از دسترس خارج شوند، به داده‌ها آسیبی وارد نشود. اما در حمله‌ی اتفاق افتاده، به‌شکل هم‌زمان تعداد بالایی سرور مورد آسیب قرار گرفتند، این موضوع سبب شد، علاوه‌بر حذف حدود ۱۰۰ ترابایت از یک پتابایت اطلاعات این دیتاسنتر، برخی اطلاعات، هر ۳ نسخه‌ خود را از دست بدهند.

در تحلیل اولیه مشخص شد که از مجموع بیش از ۹۷درصد اطلاعات، حداقل یک نسخه از اطلاعات وجود دارد. اما به‌دلیل توزیع‌شدگی سه‌درصد اطلاعات حذف شده در تمام کلاستر، زیرساخت ذخیره‌سازی در ریسک از دست رفتن کل اطلاعات قرار گرفت.


تشکیل کمیته‌ی بحران


در کنار تیم‌های پشتیبانی، مشتریان و اطلاع‌رسانی، در این مرحله، چهار تیم فنی شکل گرفت:

  • تیم یک: مسئول مراقبت از دیتاسنتر IR-THR-MN1 برای پیش‌گیری از اتفاق مشابه
  • تیم دو: کار متمرکز روی استورج دیتاسنتر IR-THR-AT1 برای برگرداندن ۱۰۰ ترابایت اطلاعات و پایدارسازی کلاستر ذخیره‌سازی
  • تیم سه: کار متمرکز روی کل زیرساخت رایانش ابری در IR-THR-AT1 تا به‌محض رفع اشکال فضای ذخیره‌سازی، سرویس دوباره به مدار برگردد.
  • تیم چهار: مسئول کالبدشکافی (Forensics) و ایمن‌سازی (Hardening)

با پیش‌بینی آسیب به دیتای کاربران و زمان‌بر بودن بازگشت سرویس، از کاربران خواسته شد برنامه Disaster Recovery خود را فعال کنند تا اگر از داده‌های خود نسخه‌ پشتیبان تهیه کرده‌اند، با استفاده از آن در سایر دیتاسنترهای آروان یا دیگر فراهم‌کنندگان زیرساخت‌، سرویس خود را مجدد راه‌اندازی کنند.

به‌رغم تاکید به «پشتیبان‌گیری اطلاعات حیاتی از سوی مشتری» در متن «شروط فنی استفاده از خدمات زیرساخت رایانش ابری آروان»، بسیاری از کاربران با آروان تماس گرفته و اعلام کردند که نسخه‌ی پشتیبانی در دست ندارند.


۲۷ اسفند، بازگشت اطلاعات


پس از حدود ۳۰ ساعت کار پراسترس، با فیکس‌کردن و یکپارچه‌سازی داده در سطح کلاستر، امکان دسترسی به اطلاعات در ساعت ۱۰:۳۰ صبح چهارشنبه فراهم شد. در این زمان حدود ۹۷.۳درصد از اطلاعات برگردانده شده بود.

از این نقطه، کار سخت‌تر تیم آغاز شد، چون آسیب و اختلال آن سه‌درصد اطلاعات می‌توانست سبب از بین رفتن کل کلاستر و بازیابی ناموفق شود.

از این زمان، تیم بر اصلاح یکپارچگی داده متمرکز شد تا کلاستر بالا بیاید.

  • مشکل نخست: باید دقت شود که این سه‌درصد دیتای از دست رفته، مربوط به سه‌درصد از مشتریان نبود بلکه سه‌درصد از اطلاعات تمام مشتریان این دیتاسنتر است؛ پس احتمالا اکثریت مشتریان بخش ناچیزی از اطلاعات‌شان آسیب‌دیده بود. از طرفی گاهی این بخش ناچیز ممکن است با اثرگذاری بر پارتیشن بوت مانع بالا آمدن ابرک شود یا با ایجاد مشکل در پارتیشن سیستم، کار سیستم‌عامل را با اخلال مواجه کند یا با قرار گرفتن در دیتابیس کاربر، آن را از کارکرد عادی بازدارد.
  • مشکل دوم: به‌طور کلی قطع ناگهانی سیستم‌عامل‌ها از استورج سبب افزایش احتمال آسیب‌دیدگی می‌شود.

۲۸ اسفند، حل مشکلات در ریکاوری و بازکردن دسترسی مشتریان/ سطح آسیب به سرورهای ابری


تا ساعت ۴ صبح روز پنج‌شنبه دو مشکل گفته شده تا حدودی حل شدند؛ کلاستر بالا آمد و تیم‌های دیگر هم کارشان تمام شده بود. از این ساعت، به‌مرور دسترسی مشتریان به سرورهای ابری باز شد.

متاسفانه با بازشدن دسترسی به پاپ‌سایت و بررسی دقیق‌تر وضعیت ابرک‌ها مشخص شد حذف کم‌تر از سه‌ درصد از اطلاعات کل دیتاسنتر، سبب تاثیرگذاری روی بخش گسترده‌ای از سرورهای ابری شده است.

میزان سکتورهای آسیب‌دیده در Block Storage متصل به ابرک، هم‌چنین نوع فایل‌سیستم‌، سیستم‌عامل و پایگاه‌ داده‌ها سبب می‌شد که سطح آسیب‌پذیری طیف گسترده‌ای داشته باشد.

در چنین موقعیت، هر کدام از سیستم‌عامل‌ها رفتار متفاوتی دارند، از بین سیستم‌عامل‌های ویندوز و نسخ مختلف لینوکس و فایل‌سیستم‌های‌شان، برخی ساده‌تر و برخی با سختی بیش‌تر ریکاوری می‌شوند. هم‌زمان با به‌کارگیری روش‌های بازیابی سیستم‌عامل‌ها، مقاله‌ آموزشی آن‌ها نیز منتشر می‌شد.

در میان فایل‌سیستم‌های مشتریان ابر آروان، EXT4 سازگارتر و XFS و NTFS آسیب‌پذیرتر بودند.

در این لحظه امکان اعلام آمار دقیق از سطح آسیب به ابرک‌ها وجود ندارد، بخشی از ابرک‌ها بدون هیچ‌اقدامی امکان استفاده داشتند، بخش دیگری با Reboot و درنهایت ترمیم boot loader به مرحله‌ی استفاده می‌رسیدند و برخی نیاز به ترمیم فایل‌سیستم یا ریکاوری‌های پیشرفته‌تر دارند.


افزایش ۴ برابری ظرفیت تیم پشتیبانی به ۸۰ نفر


در بخش دیگر این گزارش آمده است، از ظهر روز چهارشنبه، تمام خطوط تلفنی ابر آروان و تمام ظرفیت تیم پشتیبانی برای پاسخ‌گویی به مشتریان به‌کار گرفته شده بودند. با بازگشایی دسترسی کاربران در صبح روز پنج‌شنبه، ظرفیت تیم پشتیبانی با حمایت تیم‌های فنی و تیم‌های کوچ ابری، چهار برابر شد.

مشتریان فعال ابر آروان در دیتاسنتر IR-THR-AT1 در حدود ۷۰۰۰سرور ابری داشتند که تعداد ۱۱۰۰ سرور ابری از سوی مشتریان برای بررسی به تیم‌های فنی ابر آروان ارجاع شدند. از این تعداد، تاکنون مشکل ۳۰ درصد حل شده و مابقی هم‌چنان در فرآیند حل مساله قرار دارند.

به‌رغم افزایش ظرفیت و پاسخ‌گویی ۲۴ ساعته، حجم بالای مشتریان نیازمند کمک سبب شد فرآیند پاسخ‌گویی و حل مساله‌ی آنان با کندی همراه باشد. در ادامه مشکلات پیش‌آمده در کلاستر در مقاطعی، فرآیند بازیابی را متوقف کرد.


پرداخت جبران خسارت (SLA) به تمام مشتریان زیان‌دیده با فرض حل مشکلات


با تصور پایداری کلاستر ذخیره‌سازی در روز پنج‌شنبه، محاسبه‌ مدت زمان دردسترس نبودن سرویس به نسبت هزینه‌ ماهانه‌‌ هر یک از مشتریان انجام، مبلغ آن محاسبه و بالاتر از سقف جبران خسارت تعهد شده، به کیف پول کاربران واریز شد.

به‌علاوه مبلغی که در روزهای قطعی از کیف پول کاربران کم شده بود، به حساب آنان برگردانده شد.

هم‌چنین فضای ذخیره‌سازی ابری تا پایان فروردین ۱۴۰۰ به‌شکل رایگان در اختیار تمام مشتریان دیتاسنتر IR-THR-AT1 ابر آروان قرار گرفت تا در فرآیند پشتیبان‌گیری با مشکل فضای ذخیره‌سازی مواجه نباشند.

نیاز به یادآوری است که قرارداد جبران خدمت متناظر برای جبران زیان زیرساختی است که سطح و میزان پوشش آن در شرایط استفاده و قراردادهای ابر آروان آمده است. اما ابر آروان براساس تجربه‌ این اتفاق و عدم پشتیبان‌گیری دیتا از سوی تعداد بالایی از مشتریان، در تلاش است مجموعه اقدامات پیش‌گیرانه‌ای را به‌منظور سهولت تهیه‌ نسخه پشتیبان‌، از سوی مشتریان در آینده فراهم کند.

متاسفانه روند روزهای آتی مشخص کرد که کلاستر ذخیره‌سازی با مشکلاتی همراه است.

برای آن دسته از مشتریانی که پس از بازگشت هزینه‌ی روزهای قطعی، هم‌چنان برای دسترسی به ابرک خود با اختلال روبه‌رو هستند، پس از پایان حل مشکل، محاسبه مجدد انجام و به حساب آنان واریز خواهد شد.


۲۹ اسفند، حجم درخواست بسیار بالای کاربران هم‌زمان برای بازیابی اطلاعات و بروز مشکلات زیرساختی


روز جمعه، هم‌زمان حجم بالایی از کاربران برای درست کردن فایل‌سیستم یا پشتیبان‌گیری دیتا مشغول به کار شدند. به‌دلیل مشکلات پیش‌آمده و ریکاور کردن کلاستر ذخیره‌سازی در یک فشار زمانی کوتاه، کلاستر موفق به تهیه‌ی سه نسخه از تمام داده‌ها نشده بود، هم‌چنین برای ساخت ابرک‌های جدید برای انتقال اطلاعات روی آن نیاز به فضای بیش‌تر بود و در نتیجه باید ظرفیت کلاستری که به‌سختی آسیب‌دیده بود نیز افزایش پیدا می‌کرد. برای رفع این مشکل، به میزان ۴۰۰ ترابایت استورج به کلاستر اضافه شد.

تزریق منابع جدید، یعنی وزن‌دهی دوباره‌ی دیسک‌ها (Rebalance ) که سبب درگیری شدید زیرساخت و قفل شدن کلاستر می‌شود. به همین دلیل، در روز ۲۹ اسفند، وضعیت‌ بحرانی‌تر شد.


کمک تیم‌های آلمانی و ترکی و تداوم وضعیت کلاستر


در این گزارش همچنین آمده است، در روزهای شنبه و یک‌شنبه، تلاش برای بهبود زیرساخت به‌منظور انجام سریع‌تر ریکاوری در حال انجام بود، با توجه به این‌که پارامترهای مختلفی از جمله زیرساخت شبکه، پارامترهای سیستم‌عامل و کانفیگ زیرساخت ذخیره‌سازی به‌طور مشترک نیازمند تغییر و بهبودسازی بود، فرآیند بازیابی سرورهای ابری متوقف و تمام تمرکز روی بهبود زیرساخت گذاشته شد.

در این مرحله با توجه به حجم بسیار بالای ریکاوری و فشار روی کلاستر و عدم تاثیرگذاری کانفیگ‌های انجام شده از تیم‌های متخصص آلمانی و ترکی برای کمک استفاده شد که اقدامات آنان نیز تاثیر چشم‌گیری در بهبود وضعیت نداشت.


۲ فروردین، اقدامات اولیه برای راه‌اندازی کلاستر جدید


به‌طور خلاصه می‌توان گفت مشکل اصلی کلاستر ذخیره‌سازی تاثیر تسلسل دو مشکل ReMirroring-Storm  و یک Memory Leak در لایه‌‌ی نرم‌افزاری Ceph در شرایط خاص است، این مشکل هم‌افزا سبب به اغما رفتن کلاستر می‌شود.

پس از تلاش‌های ناموفق تیم ذخیره‌سازی آروان، هم‌چنین بی‌نتیجه ماندن نظرات مشاوران داخلی و خارجی، تیم System Development آروان در تلاش‌اند با Patch کردن این مشکل نرم‌افزاری و هم‌زمان افزایش منابع، مشکل را حل کنند.

با موفقیت آمیز بودن این فرآیند، آروان کد اصلاحی را به‌شکل متن‌باز منتشر خواهد کرد.

هم‌زمان که این فرآیندها برای ریکاوری در حال انجام است، یک تیم مستقل در حال برنامه‌ریزی برای راه‌اندازی کلاستر جدید و انتقال دیتاهای ممکن از کلاستر آسیب‌دیده به کلاستر جدید است. با توجه به حجم کار زیرساختی، این فرآیند احتمالن تا پایان هفته‌ی اول فروردین ادامه پیدا خواهد کرد.


اقدامات پیش‌رو


در بخش پایانی این گزارش آمده است، پس از حل مشکل کلاستر ذخیره‌سازی، به مشتریان درگیر اطلاع‌رسانی خواهد شد تا اقدامات مرتبط با پشتیبان‌گیری را انجام دهند.

ابر آروان مجموعه اقداماتی برای پیش‌گیری از بروز حوادث این‌چنینی، هم‌چنین موارد اصلاحی در دست کار دارد که پس از حل مشکل تمام مشتریان و رسیدن به وضعیت پایدار در گزارش تکمیلی آن‌ها را به آگاهی خواهد رساند.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.