پایگاه خبری راه پرداخت دارای مجوز به شماره ۷۴۵۷۲ از وزارت فرهنگ و ارشاد اسلامی و بخشی از «شبکه عصر تراکنش» است. راه پرداخت فعالیت خود را از دوم اردیبهشتماه ۱۳۹۰ شروع کرده و اکنون پرمخاطبترین رسانه ایران در زمینه فناوریهای مالی، بانکداری و پرداخت و استارتآپهای فینتک است.
هفت راهکار برای مدیریت رخدادهای دامنهدار (Major Incident)
مترجم: نرگس امیرسرداری، کارشناس پیادهسازی و استقرار گروه فناوری پرند / یک روز کاری معمولی است و تیم مشغول انجام وظایف همیشگی است، ناگهان مطلع میشوید سروکله رخدادی پیدا شده است. از صدا و لحن نگران مشتری، همکار و مدیر متوجه میشوید که این رخداد یک رخداد عادی نیست. به بررسی رخداد و کارکردهایی میپردازید که، بر اثر رخداد پیشآمده، به درستی عمل نمیکنند. هرچه پیشتر میروید، وسعت و عمق خرابیها بیشتر نگرانتان میکند.
ریشهیابی چنین رخدادی و پیدا کردن راهکار یا راهکار موقت برای بازگرداندن سرویس، کاری دشوار و نفسگیر است. مشتری کارکردهای اصلی سرویس خود را از دست داده و شما، گیج و آشفته، مولفههای مختلف سرویس را بررسی میکنید تا بتوانید ریشه بروز رخداد را پیدا کنید.
رخدادهای دامنهدار (Major Incident) استرسزا هستند. حتی وقتی هنوز اتفاق نیفتادهاند، ترس از بروز آنها همواره با تیمی است که قبلاً تجربه مواجه با این دست رخدادها را داشته است. انتخاب این بازی دست ما نیست، اما کاری که از ما برمیآید این است که آگاهانه، مسئولانه و منضبط با رخداد دامنهدار روبهرو شویم.
رخدادهای دامنهدار کابوسهای حوزه فناوری اطلاعات (IT) هستند، بر عملکرد و نتایج کسبوکار تأثیر منفی میگذارند و روال عادی و درست امور را برهم میزنند. آنها را نمیشود دوست داشت؛ اجتنابناپذیرند. اما، پیش از به وقوع پیوستنشان، در ساحل امن نبودشان، میشود مثل امروز، اینجا نشست و برای مواجه حرفهایتر با آنها و مدیریت رخداد دامنهدار آماده شد.
در ITIL 4 رخداد دامنهدار چنین تعریف شده است: «رخدادهایی که تأثیر چشمگیری بر کسبوکار داشته و نیاز به تصمیمگیریهای هماهنگ و فوری دارند.» رخدادهای دامنهدار ذاتاً چالشبرانگیز هستند.
در ادامه، سعی شده تا با ارائه هفت راهکار، روشهای موثری برای مدیریت رخداد دامنهدار پیش پای شما بگذاریم تا بتوانید در برابر رخدادهای احتمالی پیش رو، قویتر و حرفهایتر و سازمانیافتهتر عمل کنید.
1. حقایق را در مورد رخداد پیشآمده بررسی کنید
نخستین کاری که باید در مواجهه با یک رخداد دامنهدار انجام دهید این است که مطمئن شوید در جریان همه وقایعی که اتفاق افتادهاند هستید و چیزی از قلم نیفتاده است. در ادامه، برای کمک به شما در رسیدگی به اموری که پس از بروز رخداد با آنها مواجه میشوید، چند پرسش کلیدی آماده کردهایم.
- آیا همه ایمن هستند؟ آیا رخداد دامنهدار پیشآمده خطرات آنی در پی خواهد داشت؟ پیش از هر چیز و مهمتر از هر کاری، مطمئن شوید که افرادتان از هر خطری مصون و از همه خطرات احتمالی به دور هستند. شرایط ناراحتکنندهای است، میدانم. اما در نظر داشته باشید که این یک شرایط کاملاً واقعی است. بهویژه، اگر رخداد جاری به ژنراتورها، نگهداری UPS ها یا کارهای الکتریکی مرتبط باشد، میتوانید تصور کنید که ممکن است چه خطراتی در پی داشته باشد.
- این رخداد کدام سرویس را تحت تاثیر قرار میدهد؟
- این موضوع چه تاثیری بر کسبوکار دارد؟
- چه حوزهای از کاربران تحتتاثیر این رخداد دامنهدار قرار میگیرند؟ این موضوع بر یک تیم یا مکان مشخصی تاثیرگذار است یا تمام افراد را درگیر میکند؟
- کدام تیم پشتیبانی در حال رفع رخداد است؟ آیا افراد مناسبی درگیر موضوع هستند؟
- آیا لازم است تیمهای پشتیبانی دیگر را هم مطلع کنیم؟
- این اتفاق چه زمانی آغاز شده است؟ آیا از زمان شروع تا بدین لحظه، تغییراتی رخ داده است؟
- آیا راهکار موقتی برای حل و مدیریت رخداد دامنهدار وجود دارد؟
- آیا میتوانید تخمین بزنید که چه زمانی میتوانید سرویس را به حالت توافقشده بازگردانید؟
- آیا به کمک پیمانکارتان نیاز دارید؟
- آیا نیاز است به مشتریانتان، که درگیر موضوع خواهند شد، اطلاع دهید؟
- آیا لازم است که ملاحظات امنیتی را افزایش دهید؟
- آیا ریسک انطباقپذیری یا مُجازی وجود دارد که نیاز به افزایش داشته باشد؟
- آیا لازم است از قابلیتهایی استفاده کنید که برای بازیابی سرویس، در صورت بروز فاجعه، طراحی کردهاید؟
- آیا پیشخوان مرتبط با خدمت ارائهشده (Service Desk) قادر به پاسخگویی حجم تماسهای ایجادشده است؟
- آیا مشخص شده که چه زمانی میتوانید به مشتری قول بازیابی سرویس را بدهید؟
اطلاعات اولیه را به گونهای جمعآوری کنید که بتوانید پاسخگوی همه (یا دستکم بیشتر) پرسشهای مشتریان (بازدیدکنندگان) و مدیران ارشد باشید.
2. سریعتر به افراد مرتبط اطلاع دهید
در دنیای ایدهآل، در شرایط عادی، شما فهرست از پیش تعریفشدهای از افراد متخصص دارید که، در صورت بروز رخداد دامنهدار، لازم است آنها را سریعتر در جریان بگذارید. از پیش معین شده که، در این شرایط، نحوه ارتباطات بین افراد متخصص چگونه باشد که اطلاعات سریع و به صورت خودکار تبادل شود. زیرساختهای این کار نیز مهیا شده است.
ببینید: با مدیریت ریسک، سکان هر رخدادی در دستان شماست
اما احتمالاً چیزی که در واقعیت اتفاق میافتد با شرایط ایدهآل تفاوت دارد! در هنگام بروز رخداد دامنهدار، مطمن شوید که «اطلاعات درست» به «افراد مناسب» و «در زمان مناسب» منتقل شده است.
در شرایط یک رخداد دامنهدار، ممکن است مجبور شوید با برخی یا حتی همه افراد و گروههای زیر ارتباط برقرار کنید:
- مشتریان عصبانی
- ذینفعان کسبوکار و مدیران ارائه خدمات
- تیمهای فنی تحت فشار
- نهادهای نظارتی
- بخشهای اطلاعرسانی و صاحبان محصول و ارتباط با مشتریان
مطمئن شوید که افراد مناسبی با ذینفعان مرتبط صحبت میکنند. برای نمونه، در صورت نیاز به تعامل با ذینفعانِ خارج از سازمان، همراهان و تیمهای حقوقیتان را درگیر کنید.
اگر در این تعاملات با مشکلی روبهرو شدید، تمرکزتان بهویژه بر انتقال اطلاعات صحیح، شفاف و قابل فهم باشد. درصورت وجود راهکار موقت مرتبط با رخداد، مطمئن شوید که مشتری از آن راهکار مطلع است و به نحوه انجام آن اشراف کامل دارد.
هنگام درگیر شدن با رخدادهای دامنهدار، از کامل بودن اطلاعات در زمینههای زیر اطمینان حاصل کنید:
- عنوان و مرجع رخداد
- تأثیر بر کسبوکار
- خدمات و کاربران متأثر از رخداد
- هر گونه راهحل موقت و یا اطلاعات خودیاری
- جزییات تماس با پیشخوان خدمت (یا همان میز خدمت)
- زمان ارائه نسخه اصلاحی
3. یک برنامه عملیاتی تدارک ببینید
سراغ تیم پشتیبانی خود بروید و یک برنامه عملیاتی تدارک ببینید. اطمینان حاصل کنید که تمام افراد و تیمهای اصلی را جمع کردهاید. به گونهای که هیچچیز از قلم نیفتاده باشد و بتوانید به سرعت موارد را کشف کنید.
در نقش مدیر رخدادهای دامنهدار، هماهنگی و تسهیل انجام اقدامات برعهده شماست. به افراد متخصص اعتماد کنید و فضایی آرام برای آنها مهیا کنید تا بتوانند بر روی موضوع تمرکز کنند. افراد تیم پشتیبانی و پیشخوان خدمت را همچون ابرقهرمانانی تصور کنید که باید بتوانند بر این رخداد دامنهدار چیره شوند؛ شاید این تصور بتواند به شما کمک کند.
معمولاً حین تلاش برای رفع رخداد دامنهدار، نیاز دارید که بتوانید اطلاعات را فوراً با افراد مسئول تبادل کنید. از تمام ابزارهای ارتباطی نظیر کنفرانس تلفنی یا جلسات اسکایپی کمک بگیرید و مطمئن شوید که زیرساختهای ارتباطی شما در دسترس هستند.
قرارمان این باشد که از این لحن استفاده کنید: سریع، کارآمد و مهربان. به یاد داشته باشید که افراد به قدر کافی استرس دارند و زیر فشار هستند و گاهی اوقات وضعیت بههیچوجه ایدهآل نیست. هنگام برخورد با ذینفعان، اوضاع میتواند پرتنشتر هم بشود.
در ادامه، برای آرام نگه داشتن اوضاع، چند پیشنهاد ارائه شده است:
موقعیت | چه باید گفت |
فرد ارشدی به کارشناسان شما حرفهای بیهودهای میزند (برای روشن شدن موضوع، باید بگویم که یاوهگویی هرگز پذیرفته نیست، اما میتوانید بعداً به این امر رسیدگی کنید.) هدف شما دورنگهداشتن تیم کاری از تنشها و تنشزدایی از فضاست. تلاش برای تنظیم پروتکلهای رفتاری میانفردی را به زمان دیگری موکول کنید. | «از بازخورد شما متشکریم، اما فعلاً لازم است که تمرکز ما بر حل مشکل باشد. پس از رفع مشکل، به این موضوع میپردازیم.» |
هیچکس نمیداند چه اتفاقی افتاده و افراد وحشتزدهاند. | «اوضاع درست میشود، لطفاً اجازه بدهید قدم به قدم مراحل تعیینشده در برنامه اجرایی را انجام دهیم. آیا فردی هست که لازم باشد به گروه بپیوندد؟ همهچیز را پوشش دادهایم؟» |
یک مقام ارشد، به سبب در اختیار نداشتن اطلاعات و جزئیات کافی، وحشتزده شده است. | «شرایط تحت کنترل است. ما در مورد یک برنامهزمانی برای اجرای اقدامات به توافق رسیدهایم. این برنامه تا چند ثانیه دیگر برای شما ایمیل خواهد شد.» |
4. به صورت برنامهریزیشده، ذینفعان را از وضعیت اقدامات مطلع کنید
به صورت برنامهریزیشده به ذینفعان بازخورد دهید و آنها را از روند پیشرفت اقدامات مطلع کنید. اگر متعهد شدهاید که در زمان مقرری یک اقدام را اجرایی کنید، به آن پایبند بمانید. با ارائه بازخورد زمانبندیشده، خود را از درگیر شدن با پاسخگویی به پیگیریهای متعدد نجات دهید. پیگیری مستقیم تیمهایی که در رفع رخداد دامنهدار مشارکت دارند، باعث سرخوردگی و تأخیر بیشتر میشود.
5. با تیم مدیریت تغییر مشارکت کنید
هنگامی که راهکار رفع یک رخداد دامنهدار مشخص شد، راهکار را آزمون و بررسی کنید تا از صحت آن مطمئن شوید. فردی که برای آزمون انتخاب میشود، نباید شخصی باشد که راهکار را طراحی کرده است. در وضعیت موجود، هر اشتباهی میتواند شرایط را دشوارتر کند.
چنانچه، برای ارائه راهکار، نیازی به تغییر در هر یک از مولفههای سازمان هست، مطابق روال مدیریت تغییرات اضطراری عمل کنید. در برخی سازمانها، تغییر اضطراری نیاز به تشکیل کمیته راهبری تغییرات اضطراری دارد. در برخی دیگر، بلافاصله یک نسخه اجرایی برای رفع اشکالی که منجر به رخداد شده، به عنوان پچ، ارائه میشود. در برخی دیگر باید منتظر یک انتشار اضطراری باشید.
رویه مدیریت تغییر هر چه که هست، با آن مشارکت کنید.
6. خاتمه دادن (closure) را فراموش نکنید
پس از استقرار راهکار، بررسیهای لازم را انجام دهید تا از اثربخشی راهکار مطمئن شوید. با برخی از کاربرانی که از رخداد متأثر شده بودند تماس بگیرید تا مطمئن شوید که همهچیز درست کار میکند. وقتی مطمئن شدید که همهچیز همانطور است که باید باشد، یک اعلان نهایی ارسال کنید. این اعلان نهایی اطلاع میدهد که رخداد رفع شده و سرویس به وضعیت عادی بازگشته است.
7. تجربههای این رخداد دامنهدار را ثبت کنید.
وقتی این رخداد برطرف شد، پنج یا 10 دقیقه وقت بگذارید تا اقدامات کلیدی و تجربیاتی را که آموختهاید، پیش از بازگشت تیم به شرایط عادی، مرور کنید. بعدها میتوانید بررسی جامعتری داشته باشید. اما اکنون، چند دقیقه برای آگاهی از رویدادهای کلیدی وقت صرف کنید تا احیاناً چیزی از یاد نرود و فراموش نشود.
وقتی رخداد برطرف شد و توانستید بهخوبی از پس مدیریت رخداد دامنهدار برآیید، همه افراد مرتبط با رخداد از شرایط اضطرار رها شده و به شرایط کاری عادی بازگشتهاند (شرایط BAU یا Business As Usual) جلسهای برای بررسی و بازبینی وقایع تدارک ببینید. در این جلسه، از مشارکت تیم مدیریت مشکل و تیم بهبود مستمر استفاده کنید. نکته اساسی، در مورد رخدادهای دامنهدار، تمرکز بر علت بروز آنها و طراحی اجرای راهکارهایی است که مطمئن شویم این رخدادها دوباره بروز نخواهند کرد.
هنگام بررسی و مرور رخداد، محیط امنی برای بررسی موضوع فراهم کنید. به این شکل که میتوانید گزارشی صادقانه از این رخداد ارائه کنید که میتواند شامل تمام موانع موجود، مشکلات، اطلاعات اضافی درباره علل ریشهای رخداد و اقدامات پیشگیرانه برای جلوگیری از تکرار رخداد باشد. روی «مدیریت مشکل» کار کنید، اطلاعات راهکارهای موقت و راهکارهای مرتبط با مشکل را به پایگاه دانش یا پایگاه داده مرتبط انتقال دهید؛ بدینترتیب فرصتهای بهبود مستمر شناسایی میشوند.
منبع: Joe the it guy