راه پرداخت
رسانه فناوری‌های مالی ایران

نقش پرکتیس‌های ITIL در مدیریت بحران‌ها

پریا باقری، متخصص ITIL و ITSM / در دنیای امروز، فناوری اطلاعات شریان حیاتی سازمان‌هاست و هر اختلالی در آن می‌تواند فعالیت‌های کلیدی را فلج کند. این واقعیت در بحران‌ها به‌ویژه در شرایط جنگی بیش از هر زمان دیگری نمایان می‌شود. نمونه نزدیک آن، جنگ ۱۲ روزه ایران و اسرائیل بود که علاوه بر درگیری‌های فیزیکی، بُعد سایبری پرشدتی داشت. از حملات DDoS و بدافزارهای مخرب تا اختلال در شبکه‌های مخابراتی و مراکز داده. در همین بازه کوتاه، سازمان‌هایی که بدون برنامه تداوم کسب‌وکار (BCP) و بازیابی پس از فاجعه (DRP) بودند با قطعی‌های طولانی، از دست رفتن داده‌های حیاتی و حتی توقف کامل خدمات روبه‌رو شدند؛ بعضی ارائه‌دهندگان مالی و لجستیکی در منطقه تا روزها پس از پایان درگیری هم نتوانستند به وضعیت عادی بازگردند. در نقطه مقابل، سازمان‌هایی که چارچوب ITIL را در کنار DRP مستند و آزموده داشتند با شناسایی سریع تهدیدات، فعال‌سازی سایت‌های پشتیبان، استفاده از بکاپ‌های آفلاین و انتقال بار کاری به مراکز داده امن—توانستند حداقل سطح خدمات ضروری را حفظ کنند. پرکتیس‌های کلیدی ITIL از مدیریت ریسک و تغییر تا مدیریت حادثه، ظرفیت، دسترسی و تداوم خدمات، به‌معنای واقعی واگذارنده «بقا» بودند.


برنامه بازیابی پس از فاجعه (DRP) به‌عنوان ستون فقرات بقا در بحران


بازیابی پس از فاجعه مجموعه‌ای از اقدامات مستند، زمان‌بندی‌شده و آزمون‌شده است که به سازمان اجازه می‌دهد در صورت وقوع حادثه جدی—از جنگ و حملات سایبری تا بلایای طبیعی—خدمات حیاتی را در کوتاه‌ترین زمان بازگرداند. تفاوت DRP با واکنش‌های مقطعی در این است که بر سناریوهای ازپیش‌شناخته و تحلیل ریسک بنا می‌شود؛ بنابراین درست در لحظه‌ای که همه‌چیز غیرقابل پیش‌بینی به نظر می‌رسد، نظم عملیاتی را برمی‌گرداند. در همان جنگ ۱۲ روزه، سازمان‌های دارای DRP موثر با سوییچ سریع به مراکز داده جایگزین، بهره‌گیری از بکاپ‌های رمزگذاری‌شده آفلاین و فعال‌سازی ظرفیت ابری اضطراری، از توقف کامل عملیات جلوگیری کردند، درحالی‌که فاقدان DRP حتی بعد از پایان درگیری هم برای بازگشت زمان از دست دادند و هزینه بازار و اعتبار پرداختند. نکته کلیدی DRP تعیین «اولویت بازیابی خدمات» است؛ همه سرویس‌ها هم‌زمان و با یک سرعت برنمی‌گردند. برای نمونه، در یک سازمان مالی، بازیابی سامانه‌های تراکنش و امنیت حساب‌ها مقدم بر سامانه‌های گزارش‌گیری است. همین تفکیکِ هوشمندانه، استفاده از منابع محدود را بهینه و شانس موفقیت بازیابی را چند برابر می‌کند. ITIL با پرکتیس‌های مدیریت تداوم خدمات (IT Service Continuity Management) و مدیریت ریسک (Risk Management)، ادغام DRP با سایر فرایندها را نظام‌مند می‌کند تا بازیابی، جزیره‌ای و مقطعی نباشد، بلکه به فرهنگ جاری سازمان گره بخورد.


مدیریت ریسک (Risk Management)


در ITIL 4، مدیریت ریسک چارچوبی برای شناسایی، ارزیابی و کنترل ریسک‌های خدماتی ارائه می‌دهد تا سازمان در محیط‌های ناپایدار تاب‌آوری خود را حفظ کند. تجربه بحران اوکراین نشان داد شرکت‌هایی که سناریوهای حملات سایبری و تهدیدات زیرساختی را از قبل مدل‌سازی و برای انتقال بار عملیاتی به مناطق امن برنامه داشتند، اختلال را به حداقل رساندند؛ در مقابل، بنگاه‌هایی که بدون استراتژی ریسک بودند—مانند نمونه‌های انرژی در جنگ لیبی—به‌سرعت در باتلاق قطع عملیات و از دست رفتن منابع فرو رفتند. پیام روشن است: بدون ریسک‌منجیمنت، هر اقدام دیگر دیرهنگام خواهد بود.


مدیریت تغییر (Change Management)


بحران یعنی تغییرات ناگهانی و ضروری. پرکتیس مدیریت تغییر در ITIL کمک می‌کند همین تغییرات با کنترل، ارزیابی اثر و مستندسازی دقیق اجرا شوند تا از «خرابی ثانویه» جلوگیری شود. تجربه مهاجرت کنترل‌شده مراکز داده شرکت‌های چندملیتی در بحران اوکراین نشان داد که می‌توان جابه‌جایی را سریع و بی‌اختلال معنادار انجام داد؛ نقطه مقابل آن، تغییرات بی‌ضابطه در برخی زیرساخت‌های صنعتی خاورمیانه بود که به خرابی سیستم‌های کنترل و توقف چندروزه انجامید.


مدیریت حادثه (Incident Management)


در بحران‌ها، فرکانس حوادث بالا می‌رود و ارزشِ «زمان تا بازیابی» حیاتی می‌شود. مدیریت حادثه به سازمان اجازه می‌دهد اولویت‌بندی کند، مسیرهای میان‌بُر تعریف کند و به‌جای پراکندگی، روی بازگردانی سریع سرویس تمرکز کند. تجربه بازآماده‌سازی تولید پس از زلزله توهوکو نشان داد که حتی با آسیب زیرساختی، می‌توان با اولویت و تخصیص هوشمند منابع، سرویس‌های حیاتی را در همان ساعات اولیه دوباره سرپا کرد. در مقابل، نهادهای مالی بدون فرآیند حادثه بالغ، در بزنگاه امنیتی دچار سردرگمی و تأخیر شدند و اعتماد عمومی را از دست دادند.


مدیریت ظرفیت و عملکرد (Capacity and Performance Management)


در شرایط بحران، تقاضا برای خدمات فناوری اغلب به شکل غیرمنتظره‌ای افزایش می‌یابد و مدیریت ظرفیت برای تامین منابع کافی حیاتی است (AXELOS, 2021). Netflix در بحران کرونا با استفاده از پرکتیس‌های مدیریت ظرفیت به سرعت پهنای باند و پردازش‌های خود را افزایش داد و توانست بدون افت کیفیت خدمات‌دهی کند (Netflix Technology Blog, 2020). در مقابل، مرکز داده دولتی ونزوئلا به دلیل ضعف در مدیریت ظرفیت و مانیتورینگ، با افزایش ناگهانی بار کاری مواجه شد و دچار قطعی‌های مکرر گردید (Venezuelan IT Review, 2019).


مدیریت دسترسی (Access Management)


در شرایط جنگی، وقتی تیم‌ها دورکار یا پراکنده می‌شوند، کنترل دسترسی‌ها حیاتی است. احراز هویت چندعاملی، تفکیک حداقل دسترسی و نظارت پیوسته به‌طور مستقیم جلوی نفوذهای زنجیره‌ای را می‌گیرد. همان‌گونه که برخی شرکت‌های بزرگ با اجرای فراگیر MFA در بحران اوکراین ریسک را به‌شدت کم کردند. نقطه مقابل، سازمان‌های نفت و انرژی‌ای بودند که به‌دلیل ضعف کنترل دسترسی، با افشای گسترده داده مواجه شدند.


مدیریت تداوم کسب‌وکار (Business Continuity Management)


مدیریت تداوم کسب‌وکار در ITIL تضمین می‌کند فرآیندهای حیاتی حتی در بدترین سناریوها ادامه یابند. بانک‌های بین‌المللی که در بحران ۲۰۰۸ و سپس مناطق درگیر جنگ از برنامه‌های تداوم استفاده کردند، چرخه عملیاتی‌شان را بدون اختلال اساسی حفظ کردند؛ در برابر، شرکت‌های حمل‌ونقل هواییِ فاقد برنامه با توقف کامل و از دست رفتن بازار روبه‌رو شدند. تفاوت در این بود که گروه اول از قبل RTO/RPO، مکان‌های جایگزین و تیم‌های پاسخ را تمرین داده بودند.


مدیریت مشکلات (Problem Management)


حادثه را برمی‌گردانیم، اما بدون حل ریشه‌ها، بحران بعدی دور نیست. پرکتیس مدیریت مشکل با تحلیل علت ریشه‌ای (RCA)، پایش الگوهای تکرار و اجرای تغییرات دائمی، چرخه حادثه‌های تکراری را قطع می‌کند. شرکت‌های انرژی که در بحران نفتی ۲۰۲۰ به‌سراغ ریشه ضعف‌های زیرساخت رفتند، در موج بعدی تاب‌آورتر شدند؛ درحالی‌که سازمان‌های سلامتِ فاقد این رویکرد، هزینه حوادث تکراری را بارها پرداختند.


مدیریت ارتباطات (Communication Management)


بحران، مهِ غلیظ اطلاعاتی می‌آورد. کانال‌های ارتباطی شفاف و ازپیش‌تعریف‌شده بین تیم‌های فنی، مدیریت و ذی‌نفعان، سرعت تصمیم‌گیری و کیفیت اجرا را چند برابر می‌کند. تجربه شرکت‌های بزرگ فناوری در دوران کرونا نشان داد هماهنگی ساختاریافته درون‌سازمانی، زمان واکنش را به‌طور محسوس کاهش می‌دهد؛ در مقابل، نهادهایی که با ارتباطات ناپیوسته و پیام‌های متناقض پیش رفتند، در بازیابی دچار اتلاف و فرسایش شدند.

اجرای منسجم ITIL در مواقع بحران، تاب‌آوری عملیاتی را افزایش می‌دهد و ریسک‌های سایبری، زیرساختی و انسانی را مهار می‌کند. مسیر موفقیت از چند تصمیم عملی می‌گذرد:

  • DRP زنده با سناریوهای واقعی، RTO/RPO روشن و تمرین‌های دوره‌ای
  • یکپارچه‌سازی مدیریت ریسک با پورتفوی خدمات، سنجه‌های هشدار پیش‌دستانه و داشبوردهای مانیتورینگ بلادرنگ
  •  حاکمیت تغییر با مسیرهای اضطراری و ارزیابی اثر، تا سرعت با ایمنی جمع شود
  •  ظرفیت‌سنجی پویا و امکان مقیاس‌پذیری سریع چه با زیرساخت ابری
  • امنیت دسترسی در کنار اصول Zero Trust
  • تیم واکنش به حادثه بین‌وظیفه‌ای با Runbookهای آماده و مسئولیت‌های شفاف
  • چرخه مدیریت مشکل برای حذف علل ریشه‌ای و ثبت درس‌آموخته‌ها
  • پروتکل ارتباطات بحران با پیام‌های کوتاه، دقیق و همسان برای کارکنان، مشتریان و نهادهای ناظر
  • سرمایه‌گذاری روی اتوماسیون و ابزارهای مشاهده‌پذیری (Observability) باعث می‌شود به‌جای واکنش دیرهنگام، به‌صورت پیش‌فعال از شکست‌های آبشاری جلوگیری کنیم.

تجربه‌های ایران، اوکراین و سایر بسترهای بحرانی یک پیام واحد دارند: تفاوت میان بقا و فروپاشی، نه در «شدت بحران»، بلکه در «آمادگی ساختاریافته» نهفته است. ITIL این آمادگی را به زبان فرآیند، نقش، سنجه و انضباط تبدیل می‌کند؛ و وقتی بحران فرامی‌رسد، همان انضباط است که سرویس را روشن نگه می‌دارد، اعتماد را حفظ می‌کند و سازمان را سریع‌تر از رقبا به مسیر رشد پساجنگ برمی‌گرداند.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.