Jak wygląda praktyka zarządzania incydentami?

Udostępnij post

Raport Atlassian „The state of incident management 2023” pokazuje obecne praktyki związane z zarządzaniem incydentami, stosowane metodyki i narzędzia, a także identyfikuje obszary wymagające poprawy. Zwraca też uwagę na tym rosnącą rolę automatyzacji i sztucznej inteligencji.

Liczba incydentów rośnie. Jak wynika z badania KPMG „Barometr niebezpieczeństwa 2024” w 2023 roku 66% firm w Polsce odnotowało przynajmniej jeden incydent, a odsetek firm notujących ponad 30 incydentów bezpieczeństwa w ciągu roku zmniejszył się zaledwie o jeden procent w porównaniu z rokiem 2022.

W świetle tych trendów procesy ITSM związane z incident management nabierają szczególnej wagi. Szybka likwidacja skutków incydentów, a jeszcze lepiej proaktywne ich wykrywanie i neutralizowanie, jest kluczowe dla zachowania konkurencyjności i ciągłości działania przedsiębiorstw. Niedopracowane procesy reagowania na incydenty spowalniają biznes, a dopuszczenie do dłuższych przerw w działalności niekorzystnie odbija się na kondycji całej organizacji. Według danych globalnej firmy konsultingowej Forrester 47% firm, które doświadczyły przestojów, odnotowało znaczny spadek wydajności. Przestoje generują ponadto wymierne straty finansowe. Jak podaje Uptime Institute liczba incydentów, które doprowadziły w różnych firmach na świecie do strat rzędu 100 tys. USD strat wzrosła z 39% w 2019 r. do 60% w 2022 r.

Jak zatem opracować skuteczną strategię zarządzania incydentami? Jakich narzędzi używać, w co inwestować teraz i w przyszłości? Odpowiedzi na te pytania można znaleźć w raporcie „The state of Incident Management report 2023” opracowanym przez CITE Research na zlecenie Atlassian. Publikacja ta ukazuje się już po raz trzeci. Poprzednie wydania miały miejsce w roku 2020 i 2021.

Dzięki swojej cykliczności raporty pozwalają śledzić zmiany i trendy, jakie następują w działaniach związanych z zarządzaniem incydentami. W 2023 roku, jak pokazuje ostatnie badanie, organizacje wyraźnie zaczęły spoglądać w kierunku automatyzacji i sztucznej inteligencji. Oprócz zwiększonych inwestycji w AI i automatyzację planowano także inwestowanie w wiki i narzędzia CI/CD oraz zarządzanie zasobami i konfiguracją. Nie jest to zaskoczeniem, ponieważ wszystkie te rozwiązania zwiększają widoczność infrastruktury IT i wspierają lepszą współpracę między zespołami, czyli służą likwidacji dwóch głównych punktów bólu, z jakimi organizacje zmagają się podczas incydentu.

Spis treści

Wnioski z badania Atlassian:

W badaniu z 2023 roku wzięło udział ponad 500 programistów, specjalistów IT i decydentów IT (ITDM – IT decision makers) ze Stanów Zjednoczonych, którzy wypowiedzieli się na temat zarządzania incydentami ze szczególnym uwzględnieniem praktyki związanej z takimi działaniami. Większość respondentów pracowała w działach IT lub na stanowisku związanym z tworzeniem oprogramowania w małych i średnich firmach, jedynie 25% w większych przedsiębiorstwach.

Oto co ustalono:

Jakich narzędzi używają organizacje do zarządzania incydentami?

Organizacje stosują różne frameworki branżowe, jak m.in. agile, DevOps czy lean. Jednak niezaprzeczalnym liderem jest DevOps.

Głównym narzędziem do komunikacji wewnętrznej i zewnętrznej pozostaje e-mail. Spadła natomiast liczba spotkań video. Do współpracy między zespołami coraz chętniej używany jest chat, prawdopodobnie ze względu na natychmiastowe przekazywanie wiadomości.

W procesie wykrywania incydentów aż 99% respondentów używa przyjemniej jednego narzędzia (proaktywnego lub reaktywnego). Najpowszechniejsze są narzędzia do monitorowania, trzech na czterech ITDM twierdzi, że obecnie z nich korzysta.

Źródłem wiedzy o incydencie dla 61% były w 2023 roku zgłoszenia lub narzędzia do śledzenia zgłoszeń (Jira, Jir Service Management etc.). Natomiast 38% czerpało wiedze z aplikacji do współpracy (Slack, Microsoft Teams etc.) lub narzędzia ChatOps.

Większość organizacji ma dostęp do historii, ostatnich zmian i ostatnich wdrożeń podczas badania incydentu. Pomaga w tym zarządzaniu zmianą, które praktykuje 98%. Tylko jedna czwarta ITDM wspomniała o korzystaniu z rady doradczej ds. zmian, prawdopodobnie dlatego, że większość preferuje bardziej zwinne podejście.

Do pomiaru efektywności procesu zarządzana incydentami najczęściej stosowanym wskaźnikiem jest średni czas rozwiązania problemu (MTTR). Ankietowani uznają go za kluczowy wskaźnik w tym procesie (77%). Kolejne istotne wskaźniki to MTTA (Mean Time to Acknowledge) – 53% i

MTTR (Mean Time to Respond) – 46%

Analiza postmortem lub przegląd po incydencie (PIR – Post Incident Review) jest ważnym aspektem incident management, ponieważ pozwala uzyskać wiedzę o nim, ustalić, dlaczego do niego doszło i jak można zapobiec jego ponownemu wystąpieniu w przyszłości. Organizacje, które nie używają sztucznej inteligencji do wyzwalania incydentów, rzadziej wykonują analizę postmortem lub przeglądy PIR.

W celu zapobiegania incydentom większość organizacji tworzy procedury i przewodniki i (95%). Stosowane są również gry wojenne i przeprowadzane szkolenia. Respondenci korzystali również z inżynierii chaosu, symulując awarie, aby zidentyfikować i usunąć słabe punkty, które mogą się do nich przyczynić.

Podobnie jak w 2021 r., sześć na dziesięć organizacji woli obsługiwać incydenty za pomocą najlepszych w swojej klasie produktów punktowych niż ujednoliconego zestawu narzędzi.
Większość organizacji używa w tym celu kombinacji czatu, monitorowania, komunikacji, zarządzania incydentami, zarządzania projektami i alertów. Mniej niż połowa korzysta z dokumentacji/wiki, CI/CD i/lub CMDB.

Aż 19% ankietowanych nie mierzyło w 2023 roku kosztów incydentów, a 39% nie było pewnych, ile konkretnie straciły. Ci, którzy taki pomiar prowadzili, szacowali straty średnio na ponad 13 tys. USD. Należy mieć na względzie, że wielkość firmy i branża są ważnymi czynnikami, które określają koszt incydentu.

Działy IT są nadal najbardziej zaangażowane w zarządzanie incydentami. Nastąpił natomiast spadek (o 10%) zaangażowania w ten proces działów prawnych i kadry kierowniczej, widoczny w poprzednich badaniach. Atlassian tłumaczy to tym, że w szczytowym okresie pandemii awarie były bardziej nagłaśniane, co wymagało pomocy zespołów prawnych, marketingowych i C-Suite. Natomiast w 2023 roku pojawiła się nowa kategoria – działy DevOps, które coraz częściej są włączane w incydent management.

Narzędzia w procesie zarządzania incydentami - używane i planowane

 

obecnie używane

planowanie w ciągu najbliższych 12 miesięcy

nie planowane w ciągu najbliższych 12 miesięcy

czat

73%

19%

8%

narzędzia do komunikacji

70%

225

85

zarządzanie projektem

68%

25%

7%

monitoring

70%

21%

9%

zarządzanie incydentami

69%

23%

8%

alerty

61%

29%

10%

dokumentacja/wiki

49%

37%

14%

ciagła integracja/ciągłe dostarczanie

43%

42%

14%

CMDB/zarządzanie zasobami

41%

41%

18%

źródło: Atlassian, „The state of Incident Management report 2023”

Narzędzia używane do współpracy w 2023

 

komunikacja wewnętrzna

komunikacja zewnętrzna

komunikacja pomiędzy zespołami

e-mail

54%

52%

45%

telefon

34%

32%

31%

spotkanie video

43%

31%

42%

czat

49%

37%

46%

help-desk

46%

37%

35%

system zgłoszeniowy

42%

32%

31%

zarządzanie projektami

37%

28%

29%

strona internetowa

38%

35%

29%

Statuspage

31%

32%

28%

SMS

37%

35%

30%

aplikacja mobilna

35%

35%

30%

źródło: Atlassian, „The state of Incident Management report 2023”

Technologie używane do proaktywnego wykrywania incydentów

 

2023

2021

monitorowanie wydajności

70%

71%

monitorowanie transakcji użytkownika

62%

67%

sztuczna inteligencja do śledzenia trendów

50%

52%

testy syntetyczne

43%

57%

trendy/korelacje wywołujące zmiany

47%

50%

inne techniki automatyzacyjne

2%

0%

źródło: Atlassian, „The state of Incident Management report 2023”

Kto zarządza incydentami?

 

2020

2021

2023

działy operacyjne IT

93%

89%

89%

DevOps (dodany w 2023)

 

 

50%

inżynierowie

38%

46%

39%

site reaibility

26%

34%

28%

dział prawny

18%

29%

13%

marketing

13%

16%

16%

C-suites

31%

44%

26%

inne

2%

0%

1%

źródło: Atlassian, „The state of Incident Management report 2023”

Co należny poprawić, by zwiększyć jakość i efektywność zarządzania incydentami?

Największą bolączką w procesie zarządzania incydentami jest brak pełnej widoczności całej infrastruktury IT oraz brak koordynacji pracy pomiędzy działami. Ten ostatni problem narasta.

W 2021 wskazało na niego jako na poważy punkt bólu, tylko 11% respondentów, natomiast w 2023 już 20%.

Dla osób zajmujących się tworzeniem oprogramowania dużym wyzwaniem jest brak kontekstu (13%). Wielu respondentów planuje zainwestować w narzędzia, takie jak CMDB, wiki i inne, które powinny poprawić jakość procesu zarządzania incydentami.

Największe punkty bólu w zarządzaniu incydentami

23% – brak pełnej widoczności całej infrastruktury IT

20% – brak koordynacji pomiędzy działami

13% – brak kontekstu podczas incydentu

9% – źle zdefiniowane procesy

9% – brak zarządzania zmianą/zmiana zapisów

9% – brak automatycznej odpowiedzi

8% – brak integracji z narzędziami chatu (Slack, Microsoft Teams)

1% – inne powody

Obszarem, który wymaga natychmiastowej poprawy, jest współpraca wewnętrzna. W 2021 roku dominującym kanałem komunikacyjnym były wideokonferencje, co ułatwiało kontakty. Obecnie do współpracy używa się różnych, rozproszonych narzędzi, co może prowadzić do pewnego chaosu informacyjnego.

Druga sprawa to zrozumienie pierwotnej przyczyny incydentów. Jest to szczególnie ważne dla twórców oprogramowania (50%), ponieważ aż 58% organizacji pociąga deweloperów do odpowiedzialności za wdrożenia, które powodują incydenty.

Obszary w procesie zarządzania incydentem, które wymagają poprawy

36% – współpraca wewnętrzna

35% – zrozumienie przyczyn incydentu

32% – rozwiązanie incydentu

30% – komunikacja z klientem zewnętrznym

29% – zintegrowane narzędzia

29% – zrozumienie co się zmieniło w infrastrukturze/środowisku

28% – wykrywanie incydentu

27% – komunikacja pomiędzy interesariuszami wewnętrznymi

27% – zbyt obciążone procesy

26% – brak innowacji/rzadkie wdrożenia

20% – piracki proces

5% – nasz proces zarządzania dokumentami nie wymaga poprawy

1% – inne

Automatyzacja, sztuczna inteligencja i ChatGPT

Automatyzacja pozostaje priorytetem w procesie zarządzania incydentami. Najczęściej automatyzowane jest tworzenie zgłoszeń i komunikacja z pracownikami wewnętrznymi. W stosunku do ubiegłych lat, w 2023 roku nastąpił spadek automatyzacji komunikacji z klientami zewnętrznymi. Procesy postmortem/PIR automatyzuje tylko trzech na dziesięciu badanych.

Inwestycja w sztuczną inteligencję jest uważana za bardzo ważną przez 83% ITDMS (osób decyzyjnych w IT). Zdecydowana większość działów ITSM (78%) już korzysta lub planuje w najbliższej przyszłości skorzystać z generatywnej AI, w postaci ChatGPT.

Połowa respondentów wykorzystuje sztuczną inteligencję do badania trendów incydentów, choć odsetek ten nieznacznie spadł w porównaniu z 2021 r. (wynosił wówczas 57%). Warto zauważyć, że zespoły, które obecnie korzystają z narzędzi AI, takich jak ChatGPT, częściej automatyzują większość obszarów procesu zarządzania incydentami, co wskazuje na to, że ich procesy są bardziej dojrzałe.

Zautomatyzowane procesy zarządzania incydentami

 

2020

2021

2023

komunikacja podczas incydentu (Statuspage, e-mail etc.)

67%

63%

50%

tworzenie zgłoszeń (Jira, Jira Service Management etc.)

66%

52%

48%

tworzenie kanału czatu (Slack, Microsoft Teams)

53%

59%

43%

powiadomienia od narzędzi monitorujących

58%

57%

42%

widoczność ostatniego wdrożenia

 

 

37%

tworzenie raportów zmian dla zmian standardowych

 

46%

33%

postmortem creation

33%

28%

29%

Inne

3%

1%

1%

źródło: Atlassian, „The state of Incident Management report 2023”

W stronę proaktywności

Zarządzanie incydentami zmierza w stronę proaktywnego ich wykrywania, co jest bardzo widocznym trendem, ponieważ z roku na rok przybywa organizacji nastawionych na działania zapobiegawcze. W 2020 r. było ich 35%, w 2021 r. 50%, a w 2023 r. już 56,4%.

Atlassian definiuje organizację jako proaktywną, jako organizację, która używa narzędzi do monitorowania, alertów i narzędzi komunikacyjnych, a także przeprowadza szkolenia w zakresie reagowania na incydenty. W 2023 r. rozszerzono definicję o wykorzystanie sztucznej inteligencji do śledzenia trendów incydentów, a także zintegrowaną widoczność ostatnich zmian.

Zoptymalizuj procesy w swoim dziale IT

Powiedz nam, gdzie widzisz problem,
a my dostarczymy Ci skuteczne rozwiązanie

Zwiększ efektywność swojego działu IT!

Skontaktuj się z nami i dowiedz się jak możesz poprawić efektywność pracy Twojego działu IT.