راه پرداخت
رسانه فناوری‌های مالی ایران

هفت راهکار برای مدیریت رخدادهای دامنه‌دار (Major Incident)

مترجم: نرگس امیرسرداری، کارشناس پیاده‌سازی و استقرار گروه فناوری پرند / یک روز کاری معمولی است و تیم مشغول انجام وظایف همیشگی است، ناگهان مطلع می‌شوید سروکله رخدادی پیدا شده است. از صدا و لحن نگران مشتری، همکار و مدیر متوجه می‌شوید که این رخداد یک رخداد عادی نیست. به بررسی رخداد و کارکردهایی می‌پردازید که، بر اثر رخداد پیش‌آمده، به درستی عمل نمی‌کنند. هرچه پیش‌تر می‌روید، وسعت و عمق خرابی‌ها بیشتر نگرانتان می‌کند.

ریشه‌یابی چنین رخدادی و پیدا کردن راهکار یا راهکار موقت برای بازگرداندن سرویس، کاری دشوار و نفس‌گیر است. مشتری کارکردهای اصلی سرویس خود را از دست داده و شما، گیج و آشفته، مولفه‌های مختلف سرویس را بررسی می‌کنید تا بتوانید ریشه بروز رخداد را پیدا کنید.

رخدادهای دامنه‌دار (Major Incident) استرس‌زا هستند. حتی وقتی هنوز اتفاق نیفتاده‌اند، ترس از بروز آنها همواره با تیمی است که قبلاً تجربه مواجه با این دست رخدادها را داشته است. انتخاب این بازی دست ما نیست، اما کاری که از ما برمی‌آید این است که آگاهانه، مسئولانه و منضبط با رخداد دامنه‌دار روبه‌رو شویم.

رخدادهای دامنه‌دار کابوس‌های حوزه فناوری اطلاعات (IT) هستند، بر عملکرد و نتایج کسب‌وکار تأثیر منفی می‌گذارند و روال عادی و درست امور را برهم می‌زنند. آنها را نمی‌شود دوست داشت؛ اجتناب‌ناپذیرند. اما، پیش از به وقوع پیوستن‌شان، در ساحل امن نبودشان، می‌شود مثل امروز، اینجا نشست و برای مواجه حرفه‌ای‌تر با آنها و مدیریت رخداد دامنه‌دار آماده شد.

در ITIL 4 رخداد دامنه‌دار چنین تعریف شده است: «رخدادهایی که تأثیر چشمگیری بر کسب‌وکار داشته و نیاز به تصمیم‌گیری‌های هماهنگ و فوری دارند.» رخدادهای دامنه‌دار ذاتاً چالش‌برانگیز هستند.

در ادامه، سعی شده تا با ارائه هفت راهکار، روش‌های موثری برای مدیریت رخداد دامنه‌دار پیش پای شما بگذاریم تا بتوانید در برابر رخدادهای احتمالی پیش رو، قوی‌تر و حرفه‌ای‌تر و سازمان‌یافته‌تر عمل کنید.


1. حقایق را در مورد رخداد پیش‌آمده بررسی کنید


نخستین کاری که باید در مواجهه با یک رخداد دامنه‌دار انجام دهید این است که مطمئن شوید در جریان همه وقایعی که اتفاق افتاده‌اند هستید و چیزی از قلم نیفتاده است. در ادامه، برای کمک به شما در رسیدگی به اموری که پس از بروز رخداد با آنها مواجه می‌شوید، چند پرسش کلیدی آماده کرده‌ایم.

  • آیا همه ایمن هستند؟ آیا رخداد دامنه‌دار پیش‌آمده خطرات آنی در پی خواهد داشت؟ پیش از هر چیز و مهم‌تر از هر کاری، مطمئن شوید که افرادتان از هر خطری مصون و از همه خطرات احتمالی به دور هستند. شرایط ناراحت‌کننده‌ای است، می‌دانم. اما در نظر داشته باشید که این یک شرایط کاملاً واقعی است. به‌ویژه، اگر رخداد جاری به ژنراتورها، نگهداری UPS ها یا کارهای الکتریکی مرتبط باشد، می‌توانید تصور کنید که ممکن است چه خطراتی در پی داشته باشد.
  • این رخداد کدام سرویس را تحت‌ تاثیر قرار می‌دهد؟
  • این موضوع چه تاثیری بر کسب‌وکار دارد؟
  • چه حوزه‌ای از کاربران تحت‌تاثیر این رخداد دامنه‌دار قرار می‌گیرند؟ این موضوع بر یک تیم یا مکان مشخصی تاثیرگذار است یا تمام افراد را درگیر می‌کند؟
  • کدام تیم پشتیبانی در حال رفع رخداد است؟ آیا افراد مناسبی درگیر موضوع هستند؟
  • آیا لازم است تیم‌های پشتیبانی دیگر را هم مطلع کنیم؟
  • این اتفاق چه زمانی آغاز شده است؟ آیا از زمان شروع تا بدین لحظه، تغییراتی رخ داده است؟
  • آیا راهکار موقتی برای حل و مدیریت رخداد دامنه‌دار وجود دارد؟
  • آیا می‌توانید تخمین بزنید که چه زمانی می‌توانید سرویس را به حالت توافق‌شده بازگردانید؟
  • آیا به کمک پیمانکارتان نیاز دارید؟
  • آیا نیاز است به مشتریانتان، که درگیر موضوع خواهند شد، اطلاع دهید؟
  • آیا لازم است که ملاحظات امنیتی را افزایش دهید؟
  • آیا ریسک انطباق‌پذیری یا مُجازی وجود دارد که نیاز به افزایش داشته باشد؟
  • آیا لازم است از قابلیت‌هایی استفاده کنید که برای بازیابی سرویس، در صورت بروز فاجعه، طراحی کرده‌اید؟
  • آیا پیشخوان مرتبط با خدمت ارائه‌شده (Service Desk) قادر به پاسخ‌گویی حجم تماس‌های ایجادشده است؟
  • آیا مشخص شده که چه زمانی می‌توانید به مشتری قول بازیابی سرویس را بدهید؟

اطلاعات اولیه را به گونه‌ای جمع‌آوری کنید که بتوانید پاسخگوی همه (یا دست‌کم بیشتر) پرسش‌های مشتریان (بازدیدکنندگان) و مدیران ارشد باشید.


2. سریعتر به افراد مرتبط اطلاع دهید


در دنیای ایده‌آل، در شرایط عادی، شما فهرست از پیش تعریف‌شده‌ای از افراد متخصص دارید که، در صورت بروز رخداد دامنه‌دار، لازم است آنها را سریع‌تر در جریان بگذارید. از پیش معین شده که، در این شرایط، نحوه ارتباطات بین افراد متخصص چگونه باشد که اطلاعات سریع و به صورت خودکار تبادل شود. زیرساخت‌های این کار نیز مهیا شده است.

ببینید: با مدیریت ریسک، سکان هر رخدادی در دستان شماست

اما احتمالاً چیزی که در واقعیت اتفاق می‌افتد با شرایط ایده‌آل تفاوت دارد! در هنگام بروز رخداد دامنه‌دار، مطمن شوید که «اطلاعات درست» به «افراد مناسب» و «در زمان مناسب» منتقل شده است.

در شرایط یک رخداد دامنه‌دار، ممکن است مجبور شوید با برخی یا حتی همه افراد و گروه‌های زیر ارتباط برقرار کنید:

  • مشتریان عصبانی
  • ذی‌نفعان کسب‌وکار و مدیران ارائه خدمات
  • تیم‌های فنی تحت فشار
  • نهادهای نظارتی
  • بخش‌های اطلاع‌رسانی و صاحبان محصول و ارتباط با مشتریان

مطمئن شوید که افراد مناسبی با ذی‌نفعان مرتبط صحبت می‌کنند. برای نمونه، در صورت نیاز به تعامل با ذی‌نفعانِ خارج از سازمان، همراهان و تیم‌های حقوقی‌تان را درگیر کنید.

اگر در این تعاملات با مشکلی روبه‌رو شدید، تمرکزتان به‌ویژه بر انتقال اطلاعات صحیح، شفاف و قابل فهم باشد. درصورت وجود راهکار موقت مرتبط با رخداد، مطمئن شوید که مشتری از آن راهکار مطلع است و به نحوه انجام آن اشراف کامل دارد.

هنگام درگیر شدن با رخدادهای دامنه‌دار، از کامل بودن اطلاعات در زمینه‌های زیر اطمینان حاصل کنید:

  • عنوان و مرجع رخداد
  • تأثیر بر کسب‌وکار
  • خدمات و کاربران متأثر از رخداد
  • هر گونه راه‌حل موقت و یا اطلاعات خودیاری
  • جزییات تماس با پیشخوان خدمت (یا همان میز خدمت)
  • زمان ارائه نسخه اصلاحی

3. یک برنامه عملیاتی تدارک ببینید


 سراغ تیم پشتیبانی خود بروید و یک برنامه عملیاتی تدارک ببینید. اطمینان حاصل کنید که تمام افراد و تیم‌های اصلی را جمع کرده‌اید. به گونه‌ای که هیچ‌چیز از قلم نیفتاده باشد و بتوانید به سرعت موارد را کشف کنید.

در نقش مدیر رخدادهای دامنه‌دار، هماهنگی و تسهیل انجام اقدامات برعهده شماست. به افراد متخصص اعتماد کنید و فضایی آرام برای آنها مهیا کنید تا بتوانند بر روی موضوع تمرکز کنند. افراد تیم پشتیبانی و پیشخوان خدمت را همچون ابرقهرمانانی تصور کنید که باید بتوانند بر این رخداد دامنه‌دار چیره شوند؛ شاید این تصور بتواند به شما کمک کند.

معمولاً حین تلاش برای رفع رخداد دامنه‌دار، نیاز دارید که بتوانید اطلاعات را فوراً با افراد مسئول تبادل کنید. از تمام ابزارهای ارتباطی نظیر کنفرانس تلفنی یا جلسات اسکایپی کمک بگیرید و مطمئن شوید که زیرساخت‌های ارتباطی شما در دسترس هستند.

قرارمان این باشد که از این لحن استفاده کنید: سریع، کارآمد و مهربان. به یاد داشته باشید که افراد به قدر کافی استرس دارند و زیر فشار هستند و گاهی اوقات وضعیت به‌هیچ‌وجه ایده‌آل نیست. هنگام برخورد با ذی‌نفعان، اوضاع می‌تواند پرتنش‌تر هم بشود.

در ادامه، برای آرام نگه داشتن اوضاع، چند پیشنهاد ارائه شده است:

موقعیت چه باید گفت
فرد ارشدی به کارشناسان شما حرف‌های بیهوده‌ای می‌زند (برای روشن شدن موضوع، باید بگویم که یاوه‌گویی هرگز پذیرفته نیست، اما می‌توانید بعداً به این امر رسیدگی کنید.) هدف شما دورنگه‌داشتن تیم کاری از تنش‌ها و تنش‌زدایی از فضاست. تلاش برای تنظیم پروتکل‌های رفتاری میان‌فردی را به زمان دیگری موکول کنید. «از بازخورد شما متشکریم، اما فعلاً لازم است که تمرکز ما بر حل مشکل باشد. پس از رفع مشکل، به این موضوع می‌پردازیم.»
هیچ‌کس نمی‌داند چه اتفاقی افتاده و افراد وحشت‌زده‌اند. «اوضاع درست می‌شود، لطفاً اجازه بدهید قدم به قدم مراحل تعیین‌شده در برنامه اجرایی را انجام دهیم. آیا فردی هست که لازم باشد به گروه بپیوندد؟ همه‌چیز را پوشش داده‌ایم؟»
یک مقام ارشد، به سبب در اختیار نداشتن اطلاعات و جزئیات کافی، وحشت‌زده شده است. «شرایط تحت کنترل است. ما در مورد یک برنامه‌زمانی برای اجرای اقدامات به توافق رسیده‌ایم. این برنامه تا چند ثانیه دیگر برای شما ایمیل خواهد شد.»

4. به صورت برنامه‌ریزی‌شده، ذی‌نفعان را از وضعیت اقدامات مطلع کنید


به صورت برنامه‌ریزی‌شده به ذی‌نفعان بازخورد دهید و آنها را از روند پیشرفت اقدامات مطلع کنید. اگر متعهد شده‌اید که در زمان مقرری یک اقدام را اجرایی کنید، به آن پایبند بمانید. با ارائه بازخورد زمان‌بندی‌شده، خود را از درگیر شدن با پاسخ‌گویی به پیگیری‌های متعدد نجات دهید. پیگیری مستقیم تیم‌هایی که در رفع رخداد دامنه‌دار مشارکت دارند، باعث سرخوردگی و تأخیر بیشتر می‌شود.


5. با تیم مدیریت تغییر مشارکت کنید


هنگامی که راهکار رفع یک رخداد دامنه‌دار مشخص شد، راهکار را آزمون و بررسی کنید تا از صحت آن مطمئن شوید. فردی که برای آزمون انتخاب می‌شود، نباید شخصی باشد که راهکار را طراحی کرده است. در وضعیت موجود، هر اشتباهی می‌تواند شرایط را دشوارتر کند.

چنانچه، برای ارائه راهکار، نیازی به تغییر در هر یک از مولفه‌های سازمان هست، مطابق روال مدیریت تغییرات اضطراری عمل کنید. در برخی سازمان‌ها، تغییر اضطراری نیاز به تشکیل کمیته راهبری تغییرات اضطراری دارد. در برخی دیگر، بلافاصله یک نسخه اجرایی برای رفع اشکالی که منجر به رخداد شده، به عنوان پچ، ارائه می‌شود. در برخی دیگر باید منتظر یک انتشار اضطراری باشید.

رویه مدیریت تغییر هر چه که هست، با آن مشارکت کنید.


6. خاتمه دادن (closure) را فراموش نکنید


پس از استقرار راهکار، بررسی‌های لازم را انجام دهید تا از اثربخشی راهکار مطمئن شوید. با برخی از کاربرانی که از رخداد متأثر شده بودند تماس بگیرید تا مطمئن شوید که همه‌چیز درست کار می‌کند. وقتی مطمئن شدید که همه‌چیز همان‌طور است که باید باشد، یک اعلان نهایی ارسال کنید. این اعلان نهایی اطلاع می‌دهد که رخداد رفع شده و سرویس به وضعیت عادی بازگشته است.


7. تجربه‌های این رخداد دامنه‌دار را ثبت کنید.


وقتی این رخداد برطرف شد، پنج یا 10 دقیقه وقت بگذارید تا اقدامات کلیدی و تجربیاتی را که آموخته‌اید، پیش از بازگشت تیم به شرایط عادی، مرور کنید. بعدها می‌توانید بررسی جامع‌تری داشته باشید. اما اکنون، چند دقیقه برای آگاهی از رویدادهای کلیدی وقت صرف کنید تا احیاناً چیزی از یاد نرود و فراموش نشود.

وقتی رخداد برطرف شد و توانستید به‌خوبی از پس مدیریت رخداد دامنه‌دار برآیید، همه افراد مرتبط با رخداد از شرایط اضطرار رها شده و به شرایط کاری عادی بازگشته‌اند (شرایط BAU یا Business As Usual) جلسه‌ای برای بررسی و بازبینی وقایع تدارک ببینید. در این جلسه، از مشارکت تیم مدیریت مشکل و تیم بهبود مستمر استفاده کنید. نکته اساسی، در مورد رخدادهای دامنه‌دار، تمرکز بر علت بروز آنها و طراحی اجرای راهکارهایی است که مطمئن شویم این رخدادها دوباره بروز نخواهند کرد.

هنگام بررسی و مرور رخداد، محیط امنی برای بررسی موضوع فراهم کنید. به این شکل که می‌توانید گزارشی صادقانه از این رخداد ارائه کنید که می‌تواند شامل تمام موانع موجود، مشکلات، اطلاعات اضافی درباره علل ریشه‌ای رخداد و اقدامات پیش‌گیرانه برای جلوگیری از تکرار رخداد باشد. روی «مدیریت مشکل» کار کنید، اطلاعات راهکارهای موقت و راهکارهای مرتبط با مشکل را به پایگاه دانش یا پایگاه داده مرتبط انتقال دهید؛ بدین‌ترتیب فرصت‌های بهبود مستمر شناسایی می‌شوند.

منبع: Joe the it guy

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.