Globálny výpadok IT systémov ochromil leteckú dopravu aj ďalšie služby na celom svete, čo sa stalo a prečo?
Vysvetlenie je málo atraktívne, lebo to bolo vinou ľudskej chyby. Stala sa chyba pri aktualizácii bezpečnostného softvéru. A to je ten najväčší paradox, že bezpečnostný incident spôsobil bezpečnostný softvér. No to sa stáva. Ani vývojári nie sú neomylní.
No a stalo sa to preto, lebo systémy boli nastavené na automatickú aktualizáciu a prebrali nedostatočne otestovanú verziu, výsledkom bolo, že došlo k ich masívnemu výpadku.
Keď sa stane takáto chyba, ako sa to rieši? Majú firmy vyvíjajúce softvér krízový plán?
Mňa to celkom prekvapilo, že sa to stalo, pretože softvérový vývoj má nejaký cyklus a jednou z jeho záverečných fáz je testovanie. To znamená, že keď vyvíjam akúkoľvek aplikáciu a potom jej aktualizácie, tak všetko podlieha testovaniu.
No dnes vieme, čo sa stalo. Išlo o logickú chybu, pri ktorej došlo k chybnej alokácii pamäte v systéme a nemusíme ísť do hĺbky, aby sme vedeli, že to nebolo otestované. A to je pre mňa najväčšou záhadou, prečo sa na takýto problém neprišlo pri nejakom predprodukčnom testovaní pred nasadením aktualizácie. To je na strane výrobcu.
Na strane firiem, ktoré využívajú tieto aplikácie alebo akékoľvek aplikácie, by som očakával, že pred masívnym nasadením do produkcie príde k nejakému testovaniu. Akúkoľvek aplikáciu, nielen tú od CrowdStriku, ktorá spôsobila tento výpadok, treba testovať v neprodukčnom prostredí, v ktorom ak funguje, môžem ju pustiť ďalej.
Pre mňa bolo prekvapením a ukázalo sa to ako slabina, že veľmi veľa organizácií pôsobiacich v kritických sektoroch má nastavené automatické aktualizácie. Niežeby to bolo zlé, lebo to hovoríme aj my svojim klientom, že takto to má byť správne, ale keby som riadil bezpečnosť vo veľkej organizácii, tak v prvom rade by som ju otestoval pred nasadením do produkcie. Nespoliehal by som sa na automatické aktualizácie, lebo potom sa toto môže stať.
Zostáva vám 78% na dočítanie.