Nowoczesne IT

Zarządzanie incydentami – poznaj 6 kroków, aby robić to skutecznie

30 stycznia, 2020

Udostępnij post

Biznes w XXI wieku musi sprawnie reagować na incydenty. Koszty przestojów są zbyt wysokie i zbyt niebezpieczne dla organizacji. Dlatego trzeba stosować narzędzia i procesy, które zapewniają ciągłość i proaktywnie zapobiegają incydentom. Sprawne zarządzanie incydentami to także niwelowanie skutków, gdy problemy już się wydarzą.

Dlaczego zarządzanie incydentami jest trudne?

Według ITIL® incydent to nieplanowana przerwa, która powoduje lub może powodować obniżenie jakości usług, lub zakłócenie ich funkcjonowania. Zarządzanie incydentami, a także zapobieganie ich powstawaniu, należy do priorytetowych zadań IT.

Jednak zarządzanie incydentami nie jest to łatwe. Dzisiejsze środowisko informatyczne jest mocno skomplikowane z powodu swojej heterogeniczności i hybrydowości. Składa się ono zarówno z rozwiązań on-premise, które mogą być ściśle kontrolowane przez organizację, jak i z aplikacji dostarczanych w modelu chmury, gdzie za zarządzanie odpowiada strona trzecia, czyli ich dostawca.

Wiele przedsiębiorstw funkcjonuje w rozproszony sposób, poprzez sieć oddziałów w różnych miastach lub krajach. I o ile obsługa typowych zdarzeń o niewielkim zasięgu jest dość dobrze realizowana w większości z nich, wyzwaniem staje się reagowanie na poważne incydenty (Major Incidents).

Tradycyjne zarządzanie incydentami nie do końca sprawdza się w złożonym środowisku i często prowadzi do spóźnionych reakcji, co skutkuje spadkiem przychodów, zmniejszeniem lojalności klientów i niezadowoleniem pracowników, którzy odchodzą z firmy. Właściwe reagowanie na incydenty jest więc w dużej mierze odpowiedzialne za zachowanie rynkowej konkurencyjności.

Jakie są skutki przestojów w firmie?

Przestoje to zmora współczesnego biznesu. Powodują one szkody finansowe, co wpływa na wynik końcowy. Koszty przestojów są złożone i mogą to być:

koszty usunięcia awarii przez IT i jednostki biznesowe,
uszczerbek na reputacji, który może skutkować pogorszeniem lojalności klientów lub ich odejściem,
ewentualne konsekwencje związane z nieprzestrzeganiem przepisów i nałożeniem kar regulacyjnych (np. z tytułu RODO).

Firma badawcza Gartner szacuje, że wydatki, jakie z tytułu przestoju w środowisku IT ponosi przeciętne przedsiębiorstwo, wynoszą 5600 USD (dane globalne) za każdą minutę. Z kolei według raportu IHS z powodu przestojów w pracy firmy w USA tracą ponad 700 mld USD rocznie. Typowa firma średniej wielkości doświadcza 5 incydentów i 27 godzin przestoju w miesiącu, co kosztuje ją 1 mln USD rocznie. W dużym przedsiębiorstwie ten koszt sięga już ponad 60 mln USD w skali roku.

Im większa organizacja, tym straty wyższe.

Według ankiety IDC przestoje w pracy dla firm z listy Fortune 1000 mogą kosztować nawet 1 mln USD za godzinę. W przypadku globalnych gigantów skala dalej rośnie. Dla firmy Amazon szacunkowe koszty wynoszą około 13,22 mln USD na godzinę. W marcu 2015 roku 12-godzinna przerwa w sklepie Apple kosztowała firmę 25 mln USD. W sierpniu 2016 r. pięciogodzinna przerwa w dostawie prądu w centrum operacyjnym Delta Airlines spowodowała odwołanie 2000 lotów i szacunkową stratę 150 mln USD.

Pięć branż, gdzie wartość utraconych dochodów z powodu incydentów w środowisku IT (koszty godzinowe) jest największa, to: farmacja (2,1 mln USD), ubezpieczenia (2,5 mln USD), IT (3,3 mln USD), telekomunikacja (4,6 mln USD), oraz usługi finansowe (8,2 mln USD).

Warto pamiętać, że choć koszty przestojów rosną wraz z wielkością przedsiębiorstwa, nie zwalnia to mniejszych firm z myślenia o zarządzaniu incydentami. Ci wielcy zazwyczaj przetrwają burzę finansową. Natomiast przestoje w sektorze MŚP mogą mieć znacznie większy wpływ na wynik finansowy przedsiębiorstwa, a nawet doprowadzić do bankructwa.

Szybkie reagowanie na incydenty to priorytet IT

Jak uważają eksperci z firmy Atlassian, oferującej jeden z najczęściej używanych na globalnym rynku systemów do zarządzania usługami IT – Jira Service Desk, zarządzanie incydentami dobrze jest wzmocnić wdrożeniem dodatkowych narzędzi lub procesów dedykowanych temu obszarowi, ponieważ nie zawsze posiadany system ITSM jest w stanie odpowiednio szybko poradzić sobie z zaistniałym incydentem, w szczególności o szerszym zasięgu.

IT zazwyczaj udostępnia jeden punkt kontaktowy dla całej firmy. Personel odpowiada na zapytania o usługi, rozwiązuje banalne zagadnienia jak zmiana hasła i przy tym wszystkim reaguje też na nieoczekiwane przestoje. Informacji do przetworzenia może być za dużo.

Monitorowanie alertów z jednej skrzynki czy platformy wymaga wysokiego poziomu współpracy i dyscypliny w zespole, żeby to samo ostrzeżenie nie było obsługiwane przez więcej niż jednego eksperta. Można też w natłoku innych zgłoszeń przeoczyć krytyczne alerty.

Kolejny problem to gwałtowny wzrost konieczności utrzymania „zawsze dostępnych usług” w sytuacji większej współzależności między systemami. Funkcjonujemy przecież w architekturze chmurowej, mamy konteneryzację, mikrousługi. To powoduje, że rozwiązania ITSM zostały przytłoczone nie tylko zgłoszeniami użytkowników, ale także gigabajtami danych generowanych przez systemy monitoringu. Z tego powodu członkowie zespołu odpowiedzialni za obsługę alertów często ze znacznym opóźnieniem reagują na zdarzenia.

Szybka reakcja i naprawa awarii to priorytet zespołów operacyjnych IT, dlatego narzędzia, jakich używają, muszą się zmienić tak, by to ułatwić, ponieważ opóźnienie usunięcia awarii może natychmiast wpłynąć na wyniki finansowe firmy.

Żeby zmniejszyć negatywny wpływ błędów i awarii, organizacje inwestują w zdolności ich wczesnego wykrywania, poprawiają niezawodność środowiska IT, szkolą swoich pracowników oraz wdrażają procesy sprawnego reagowania na incydenty.

Dostawcy systemów ITSM coraz lepiej przystosowują funkcje zarządzania incydentami do potrzeb współczesnych działów IT, aby lepiej konsolidować i wartościować alerty. Są też na rynku dodatkowe, wyspecjalizowane narzędzia integrujące się z rozwiązaniami ITSM, które oferują funkcje śledzenia i kontroli przepływu pracy związanego z rejestrowaniem, przydziałem i naprawą zgłoszonego incydentu. Zapewniają również możliwość raportowania.

Coraz częściej firmy wdrażają też narzędzia do automatyzacji procesów oraz rozwiązania z zakresu sztucznej inteligencji, co pozwala odchodzić od reaktywnych reakcji na incydent na rzecz działań proaktywnych.

Skuteczne zarządzanie incydentami w 6 krokach

Jak zarządzać incydentami w sposób optymalny? Firma Atlassian w publikacji Modern Incident Management for IT Operations. A Guide to Optimizing IT Operations and Driving Business Value proponuje działać według 6 kroków, które pozwolą zbudować spójną i skuteczną strategię obsługi incydentów. Ich zastosowanie zmniejszy obciążenie zespołu IT piętrzącymi się alarmami oraz znacznie skróci czas oczekiwania na rozwiązanie (MTTR – mean time to repair).

I jeszcze jedna uwaga: żadnego z tych kroków nie można pominąć, jeśli chce się zbudować ramy jak najlepszego zarządzania incydentami i sprawnie radzić sobie z incydentami krytycznymi.

Komunikacja wielokanałowa

Każdy incydent dotyczy trzech kategorii osób:

obserwatorów (klientów lub pracowników, na których zdarzenie ma wpływ),
odpowiedzialnych (członków zespołu operacyjnego IT reagujących na incydenty),
interesariuszy (osoby z managementu, które należy informować na bieżąco o stanie incydentu).

Konieczne jest powiadamianie właściwych osób we właściwej kolejności, przy użyciu odpowiedniego kanału komunikacji, który może obejmować czat, pocztę elektroniczną, powiadomienia w aplikacjach, telefon i strony internetowe. Ponadto trzeba komunikować się z każdą z grup w czasie trwania zdarzenia oraz po rozwiązaniu problemu - przychodzi tu z pomocą automatyzacja organizacji procesu komunikacji.

Warto zauważyć, że sprawne zarządzanie incydentami podnosi również bezpieczeństwo teleinformatyczne. Jest więc doskonałym uzupełnieniem systemów SIEM dzięki automatyzacji reakcji na zgłaszane przez nie incydenty.

Jakie cechy mają dobre narzędzia do zarządzania incydentami?

Szybkie wykrywanie i niwelowanie skutków incydentów w skomplikowanym środowisku IT oraz organizacyjnym wymaga odpowiednich rozwiązań. Dostawcy rozwiązań Service Desk/ITSM oferują dodatkowe narzędzia lub funkcje zarządzania cyklem życia incydentów, które mają zastosowanie w szczególności do Major Incidents.

Są to rozwiązania, które w pełni nadzorują proces zarządzania nimi, a nie tylko tworzą i rozsyłają powiadomienia. Funkcje, jakie oferują, można prześledzić na przykładzie Opsgenie – produktu firmy Atlassian. Jest to oprogramowanie w chmurze, które umożliwia konsolidację powiadomień i wiele innych funkcji. Opsgenie integruje się z ponad 200 narzędziami do monitorowania.

Jego główne cechy to:

bezproblemowa integracja z innymi aplikacjami i systemami;
tworzenie harmonogramów na życzenie – z łatwością tworzy harmonogramy dzienne, tygodniowe i niestandardowe, takie jak zapewnienie usług po godzinach, czy w weekendy, a także według zasięgu geograficznego w organizacjach rozproszonych (model follow-the-sun);
orkiestracja odpowiedzi – standaryzuje procesy reakcji organizacji na incydenty, zawiadamiając właściwe osoby na podstawie polityki alarmowej i szablonów powiadomień;
współpraca w zakresie reagowania na incydenty – automatycznie inicjuje mostki wideo i telekonferencyjne potrzebne do komunikowania się w sprawie rozwiązywania problemów. Powiadomienia mogą być również przekierowane na czat i inne narzędzia do współpracy zespołowej;
komunikacja z interesariuszami – zawiadamia zainteresowane strony zgodnie z zasadami organizacyjnymi, według określonych specyfikacji. Może również utworzyć strony internetowe dotyczące stanu zdarzenia;
przekierowywanie rozmów telefonicznych – przychodzące rozmowy telefoniczne mogą być automatycznie przekierowane do właściwej osoby;
raportowanie incydentów – posiada funkcje wizualizacji danych, które zapewniają szybki dostęp do informacji na temat wydajności operacyjnej organizacji;
analiza post mortem – rozwiązanie zapewnia narzędzia do uczenia się na podstawie przeszłych incydentów oraz do ich oceny. Pozwala poprawić praktyki reagowania na incydenty oraz usprawnić pracę zespołu i jego przyszłą skuteczność.

Sprawne, efektywne zarządzanie incydentami to obecnie jedna z najważniejszych umiejętności działów IT. I tylko zastosowanie odpowiedniej strategii działania i narzędzi pozwoli ograniczyć występowanie przestojów i awarii, a tym samym zminimalizować straty biznesowe. Warto w takie narzędzia zainwestować.

Czytaj więcej artykułów