Zarządzanie incydentami – poznaj 6 kroków, aby robić to skutecznie

Udostępnij post

Biznes w XXI wieku musi sprawnie reagować na incydenty. Koszty przestojów są zbyt wysokie i zbyt niebezpieczne dla organizacji. Dlatego trzeba stosować narzędzia i procesy, które zapewniają ciągłość i proaktywnie zapobiegają incydentom. Sprawne zarządzanie incydentami to także niwelowanie skutków, gdy problemy już się wydarzą.

Spis treści

Dlaczego zarządzanie incydentami jest trudne?

Według ITIL® incydent to nieplanowana przerwa, która powoduje lub może powodować obniżenie jakości usług, lub zakłócenie ich funkcjonowania. Zarządzanie incydentami, a także zapobieganie ich powstawaniu, należy do priorytetowych zadań IT.

Jednak zarządzanie incydentami nie jest to łatwe. Dzisiejsze środowisko informatyczne jest mocno skomplikowane z powodu swojej heterogeniczności i hybrydowości. Składa się ono zarówno z rozwiązań on-premise, które mogą być ściśle kontrolowane przez organizację, jak i z aplikacji dostarczanych w modelu chmury, gdzie za zarządzanie odpowiada strona trzecia, czyli ich dostawca.

Wiele przedsiębiorstw funkcjonuje w rozproszony sposób, poprzez sieć oddziałów w różnych miastach lub krajach. I o ile obsługa typowych zdarzeń o niewielkim zasięgu jest dość dobrze realizowana w większości z nich, wyzwaniem staje się reagowanie na poważne incydenty (Major Incidents).

Tradycyjne zarządzanie incydentami nie do końca sprawdza się w złożonym środowisku i często prowadzi do spóźnionych reakcji, co skutkuje spadkiem przychodów, zmniejszeniem lojalności klientów i niezadowoleniem pracowników, którzy odchodzą z firmy. Właściwe reagowanie na incydenty jest więc w dużej mierze odpowiedzialne za zachowanie rynkowej konkurencyjności.

Jakie są skutki przestojów w firmie?

Przestoje to zmora współczesnego biznesu. Powodują one szkody finansowe, co wpływa na wynik końcowy. Koszty przestojów są złożone i mogą to być:

  •       koszty usunięcia awarii przez IT i jednostki biznesowe,
  •       uszczerbek na reputacji, który może skutkować pogorszeniem lojalności klientów lub ich odejściem,
  •       ewentualne konsekwencje związane z nieprzestrzeganiem przepisów i nałożeniem kar regulacyjnych (np. z tytułu RODO).

Firma badawcza Gartner szacuje, że wydatki, jakie z tytułu przestoju w środowisku IT ponosi przeciętne przedsiębiorstwo, wynoszą 5600 USD (dane globalne) za każdą minutę. Z kolei według raportu IHS z powodu przestojów w pracy firmy w USA tracą ponad 700 mld USD rocznie. Typowa firma średniej wielkości doświadcza 5 incydentów i 27 godzin przestoju w miesiącu, co kosztuje ją 1 mln USD rocznie. W dużym przedsiębiorstwie ten koszt sięga już ponad 60 mln USD w skali roku.

 Im większa organizacja, tym straty wyższe.

Według ankiety IDC przestoje w pracy dla firm z listy Fortune 1000 mogą kosztować nawet 1 mln USD za godzinę. W przypadku globalnych gigantów skala dalej rośnie. Dla firmy Amazon szacunkowe koszty wynoszą około 13,22 mln USD na godzinę. W marcu 2015 roku 12-godzinna przerwa w sklepie Apple kosztowała firmę 25 mln USD. W sierpniu 2016 r. pięciogodzinna przerwa w dostawie prądu w centrum operacyjnym Delta Airlines spowodowała odwołanie 2000 lotów i szacunkową stratę 150 mln USD.

Pięć branż, gdzie wartość utraconych dochodów z powodu incydentów w środowisku IT (koszty godzinowe) jest największa, to: farmacja (2,1 mln USD), ubezpieczenia (2,5 mln USD), IT (3,3 mln USD), telekomunikacja (4,6 mln USD), oraz usługi finansowe (8,2 mln USD).

Warto pamiętać, że choć koszty przestojów rosną wraz z wielkością przedsiębiorstwa, nie zwalnia to mniejszych firm z myślenia o zarządzaniu incydentami. Ci wielcy zazwyczaj przetrwają burzę finansową. Natomiast przestoje w sektorze MŚP mogą mieć znacznie większy wpływ na wynik finansowy przedsiębiorstwa, a nawet doprowadzić do bankructwa.

Szybkie reagowanie na incydenty to priorytet IT

Jak uważają eksperci z firmy Atlassian, oferującej jeden z najczęściej używanych na globalnym rynku systemów do zarządzania usługami IT – Jira Service Desk, zarządzanie incydentami dobrze jest wzmocnić wdrożeniem dodatkowych narzędzi lub procesów dedykowanych temu obszarowi, ponieważ nie zawsze posiadany system ITSM jest w stanie odpowiednio szybko poradzić sobie z zaistniałym incydentem, w szczególności o szerszym zasięgu.

IT zazwyczaj udostępnia jeden punkt kontaktowy dla całej firmy. Personel odpowiada na zapytania o usługi, rozwiązuje banalne zagadnienia jak zmiana hasła i przy tym wszystkim reaguje też na nieoczekiwane przestoje. Informacji do przetworzenia może być za dużo.

Monitorowanie alertów z jednej skrzynki czy platformy wymaga wysokiego poziomu współpracy i dyscypliny w zespole, żeby to samo ostrzeżenie nie było obsługiwane przez więcej niż jednego eksperta. Można też w natłoku innych zgłoszeń przeoczyć krytyczne alerty.

Kolejny problem to gwałtowny wzrost konieczności utrzymania „zawsze dostępnych usług” w sytuacji większej współzależności między systemami. Funkcjonujemy przecież w architekturze chmurowej, mamy konteneryzację, mikrousługi. To powoduje, że rozwiązania ITSM zostały przytłoczone nie tylko zgłoszeniami użytkowników, ale także gigabajtami danych generowanych przez systemy monitoringu. Z tego powodu członkowie zespołu odpowiedzialni za obsługę alertów często ze znacznym opóźnieniem reagują na zdarzenia.

Szybka reakcja i naprawa awarii to priorytet zespołów operacyjnych IT, dlatego narzędzia, jakich używają, muszą się zmienić tak, by to ułatwić, ponieważ opóźnienie usunięcia awarii może natychmiast wpłynąć na wyniki finansowe firmy.

Żeby zmniejszyć negatywny wpływ błędów i awarii, organizacje inwestują w zdolności ich wczesnego wykrywania, poprawiają niezawodność środowiska IT, szkolą swoich pracowników oraz wdrażają procesy sprawnego reagowania na incydenty.

Dostawcy systemów ITSM coraz lepiej przystosowują funkcje zarządzania incydentami do potrzeb współczesnych działów IT, aby lepiej konsolidować i wartościować alerty. Są też na rynku dodatkowe, wyspecjalizowane narzędzia integrujące się z rozwiązaniami ITSM, które oferują funkcje śledzenia i kontroli przepływu pracy związanego z rejestrowaniem, przydziałem i naprawą zgłoszonego incydentu. Zapewniają również możliwość raportowania.

Coraz częściej firmy wdrażają też narzędzia do automatyzacji procesów oraz rozwiązania z zakresu sztucznej inteligencji, co pozwala odchodzić od reaktywnych reakcji na incydent na rzecz działań proaktywnych.

Skuteczne zarządzanie incydentami w 6 krokach

Jak zarządzać incydentami w sposób optymalny? Firma Atlassian w publikacji Modern Incident Management for IT Operations. A Guide to Optimizing IT Operations and Driving Business Value proponuje działać według 6 kroków, które pozwolą zbudować spójną i skuteczną strategię obsługi incydentów. Ich zastosowanie zmniejszy obciążenie zespołu IT piętrzącymi się alarmami oraz znacznie skróci czas oczekiwania na rozwiązanie (MTTR – mean time to repair). 

I jeszcze jedna uwaga: żadnego z tych kroków nie można pominąć, jeśli chce się zbudować ramy jak najlepszego zarządzania incydentami i sprawnie radzić sobie z incydentami krytycznymi.

Zidentyfikowanie krytycznych systemów i skonsolidowanie alertów

Głównym sprawcą nadmiernego obciążenia IT są powielające się alarmy, które nie pozwalają na skoncentrowanie się na tych alertach w odpowiednim czasie. Trzeba skupić się na najważniejszych systemach i usunąć duplikaty powiadomień.

Planowanie zasobów krytycznych i stosowanie odpowiedniego modelu planowania

Organizacja powinna zapewnić zasoby gotowe do działania i rozwiązania problemu. W związku z tym każda nowoczesna platforma zarządzania incydentami powinna posiadać funkcję planowania, umożliwiającą tworzenie i obsługiwanie wielu modeli planowania (dyżury domowe, praca na zmiany, praca w różnych strefach czasowych) pasujących do preferowanego przez organizację trybu pracy

Automatyczne filtrowanie i kierunkowanie przychodzących i wychodzących powiadomień

Automatyzacja jest nie tylko kluczem do wydajności i skuteczności w obszarze operacyjnym, ale także do zmniejszania czasu przestoju. Należy automatyzować każdy aspekt zarządzania incydentami: od routingu alarmów, de-duplikacji powiadomień, przepływu komunikatów, aż po narzędzia komunikacyjne i aktualizację statusu

Komunikacja wielokanałowa

Każdy incydent dotyczy trzech kategorii osób:

obserwatorów (klientów lub pracowników, na których zdarzenie ma wpływ),
odpowiedzialnych (członków zespołu operacyjnego IT reagujących na incydenty),
interesariuszy (osoby z managementu, które należy informować na bieżąco o stanie incydentu).

Konieczne jest powiadamianie właściwych osób we właściwej kolejności, przy użyciu odpowiedniego kanału komunikacji, który może obejmować czat, pocztę elektroniczną, powiadomienia w aplikacjach, telefon i strony internetowe. Ponadto trzeba komunikować się z każdą z grup w czasie trwania zdarzenia oraz po rozwiązaniu problemu - przychodzi tu z pomocą automatyzacja organizacji procesu komunikacji.

Monitorowanie systemu

Skuteczne reagowanie na alarmy i incydenty jest podstawową kompetencją zarządzania incydentami, więc warto poświęć trochę czasu na monitorowanie wydajności systemów, wdrażając proces, w ramach którego można szybko zobaczyć na pojedynczym panelu czy system działa poprawnie. Dodatkowo należy również zautomatyzować harmonogramowanie i przekazywanie raportów o stanie rozwiązania incydentu

Analiza post mortem

System wspierający zarządzanie incydentami, w szczególności Major Incidents powinien dostarczać dane do analizy post-mortem. Analiza umożliwia poprawę procesu rozwiązania incydentów jak i procedur powiadamiania wszystkich zainteresowanych stron, co ostatecznie prowadzi do poprawienia „doświadczenia użytkownika” (UX).

Warto zauważyć, że sprawne zarządzanie incydentami podnosi również bezpieczeństwo teleinformatyczne. Jest więc doskonałym uzupełnieniem systemów SIEM dzięki automatyzacji reakcji na zgłaszane przez nie incydenty.

Jakie cechy mają dobre narzędzia do zarządzania incydentami?

Szybkie wykrywanie i niwelowanie skutków incydentów w skomplikowanym środowisku IT oraz organizacyjnym wymaga odpowiednich rozwiązań. Dostawcy rozwiązań Service Desk/ITSM oferują dodatkowe narzędzia lub funkcje zarządzania cyklem życia incydentów, które mają zastosowanie w szczególności do Major Incidents.

Są to rozwiązania, które w pełni nadzorują proces zarządzania nimi, a nie tylko tworzą i rozsyłają powiadomienia. Funkcje, jakie oferują, można prześledzić na przykładzie Opsgenie – produktu firmy Atlassian. Jest to oprogramowanie w chmurze, które umożliwia konsolidację powiadomień i wiele innych funkcji. Opsgenie integruje się z ponad 200 narzędziami do monitorowania.

Jego główne cechy to:

  • bezproblemowa integracja z innymi aplikacjami i systemami;
  • tworzenie harmonogramów na życzenie – z łatwością tworzy harmonogramy dzienne, tygodniowe i niestandardowe, takie jak zapewnienie usług po godzinach, czy w weekendy, a także według zasięgu geograficznego w organizacjach rozproszonych (model follow-the-sun);
  • orkiestracja odpowiedzi – standaryzuje procesy reakcji organizacji na incydenty, zawiadamiając właściwe osoby na podstawie polityki alarmowej i szablonów powiadomień;
  • współpraca w zakresie reagowania na incydenty – automatycznie inicjuje mostki wideo i telekonferencyjne potrzebne do komunikowania się w sprawie rozwiązywania problemów. Powiadomienia mogą być również przekierowane na czat i inne narzędzia do współpracy zespołowej;
  • komunikacja z interesariuszami – zawiadamia zainteresowane strony zgodnie z zasadami organizacyjnymi, według określonych specyfikacji. Może również utworzyć strony internetowe dotyczące stanu zdarzenia;
  • przekierowywanie rozmów telefonicznych – przychodzące rozmowy telefoniczne mogą być automatycznie przekierowane do właściwej osoby;
  • raportowanie incydentów – posiada funkcje wizualizacji danych, które zapewniają szybki dostęp do informacji na temat wydajności operacyjnej organizacji;
  • analiza post mortem – rozwiązanie zapewnia narzędzia do uczenia się na podstawie przeszłych incydentów oraz do ich oceny. Pozwala poprawić praktyki reagowania na incydenty oraz usprawnić pracę zespołu i jego przyszłą skuteczność.

Sprawne, efektywne zarządzanie incydentami to obecnie jedna z najważniejszych umiejętności działów IT. I tylko zastosowanie odpowiedniej strategii działania i narzędzi pozwoli ograniczyć występowanie przestojów i awarii, a tym samym zminimalizować straty biznesowe. Warto w takie narzędzia zainwestować.

Zwiększ efektywność swojego działu IT!

Skontaktuj się z nami i dowiedz się jak możesz poprawić efektywność pracy Twojego działu IT.