Aziende e governi di tutto il mondo sono stati colpiti da quello che è stato definito da alcune fonti come il "più grande guasto informatico della storia".[3][4]
Venerdì 19 luglio 2024 alle 4:09 UTC (6:09 CEST) CrowdStrike ha rilasciato un aggiornamento della configurazione di Falcon destinato a computer e server che usano Microsoft Windows come sistema operativo. L'aggiornamento conteneva una modifica ad un file di configurazione, chimato Channel File 291, che determina come Falcon ispeziona le named pipe su Windows.[13] La nuova versione del file era però malformata e ciò ha causato una lettura di memoria fuori limite che a sua volta ha innescato un'eccezione di tipo page fault che non poteva essere gestita correttamente ed ha portato al crash del sistema operativo.[14]
Il problema ha colpito i sistemi che usavano Windows 10 o Windows 11 e sui quali era installato il software Falcon di CrowdStrike. Gran parte dei computer ad uso personale non è stato impattato, in quanto i software di CrowdStrike erano utilizzati prevalentemente in ambito aziendale. Nemmeno i computer che utilizzavano altri sistemi operativi, come Linux o macOS, sono stati colpiti, poiché l'aggiornamento problematico riguardava solo Windows.[15] Purtroppo il software non dava la possibilità agli utenti di disabilitare o ritardare l'installazione automatica degli aggiornamenti.
Quasi immediatamente le macchine virtuali Windows su Microsoft Azure hanno cominciato ad andare in crash e a riavviarsi.[16] Alle 6:48 UTC il problema è stato segnalato anche su Google Cloud Platform e alle 7:15 Google ha dichiarato che la causa era un aggiornamento del software di CrowdStrike.[17]
CrowdStrike ha bloccato la distribuzione dell'aggiornamento difettoso alle 5:27 UTC e i computer che erano rimasti spenti durante l'intervallo di tempo in cui l'aggiornamento era stato disponibile non sono stati affetti dal problema.[18] In seguito l'azienda ha rilasciato nuovamente l'aggiornamento dopo avere corretto la parte difettosa.[19] Alle 9:45 George Kurtz, CEO di CrowdStrike, ha rilasciato una dichiarazione su X affermando che la causa del problema era un difetto in un aggiornamento per sistemi Windows, che una correzione era già disponibile e che il problema non era causato da un ciberattacco.[20]
Rimedi
In generale la maggior parte dei dispositivi affetti dal problema è stata ripristinata riavviando il sistema dopo le 5:27 UTC e lasciando che il software scaricasse automaticamente il nuovo aggiornamento senza più la parte problematica.[21]
Quando ciò non è stato sufficiente a risolvere il problema, è stato necessario avviare il sistema in modalità provvisoria o con il Windows Recovery Environment, aprire la cartella %windir%\System32\drivers\CrowdStrike\ e cancellare tutti i file il cui nome comincia con C-00000291- e termina con l'estensione .sys.[22][23] Poiché questa operazione doveva essere svolta manualmente su ogni singola macchina affetta dal problema, in certi casi il totale recupero di tutti i sistemi ha richiesto giorni.[24]
Sui dispositivi protetti con crittografia BitLocker, la quale è comunemente abilitata sui dispositivi aziendali per proteggere i dati in caso di furto, il recupero era reso ulteriormente più complesso dal fatto che gli utenti dovevano inserire manualmente la chiave di ripristino BitLocker (un codice di 48 cifre), che è differente per ogni computer.[25] Peraltro molte aziende salvano le chiavi di recupero dei dispositivi su server locali, i quali in alcuni casi erano affetti essi stessi dal problema e non era pertanto possibile accedervi.
Impatto e conseguenze
Le interruzioni si sono verificate in tutto il mondo,[26][27][28] a testimonianza dell'ampio utilizzo di Microsoft Windows e del software CrowdStrike da parte di aziende globali in numerosi settori commerciali.[29] Al momento dell'incidente, CrowdStrike ha dichiarato di avere oltre 24.000 clienti,[30] tra cui quasi il 60% delle aziende Fortune 500 e più della metà delle Fortune 1000.[31][32] Il 20 luglio, Microsoft ha stimato che 8,5 milioni di dispositivi sono stati colpiti dall'aggiornamento, che secondo Microsoft rappresentavano meno dell'uno per cento di tutti i dispositivi Windows.[33]
Alcuni paesi sono stati meno colpiti. La Cina, che ha fatto sforzi per raggiungere l'autosufficienza informatica, ha visto un impatto minimo sui servizi chiave come le compagnie aeree e le banche, anche se le imprese straniere e gli hotel di lusso del paese sono stati colpiti.[34] La Russia e l'Iran - entrambi limitati dalle sanzioni internazionali ad utilizzare i servizi delle aziende high-tech americane, non hanno riportato alcuna interruzione.[35][36] La società di quantificazione del rischio informatico Kovrr ha calcolato che il costo complessivo per l'economia del Regno Unito sarebbe stato probabilmente compreso tra 1,7 e 2,3 miliardi di sterline.[37] Un'azienda specializzata nell'assicurazione contro i disservizi dei cloud ha stimato che le 500 aziende statunitensi più importanti per fatturato, esclusa Microsoft, avrebbero affrontato una spesa di circa 5,4 miliardi di dollari di perdite finanziarie a causa dell'interruzione del servizio, ma solo tra 540 milioni e 1,08 miliardi di dollari di queste perdite sarebbero state assicurate.[38] Una settimana dopo l'evento, è stato stimato che esso abbia causato perdite economiche complessive per circa 15 miliardi di dollari alle aziende colpite.[39]
Sanità
Numerosi ospedali e centri medici in tutto il mondo hanno dovuto interrompere l'assistenza sanitaria a causa del blocco dei loro sistemi informatici.[40][41] Molti ospedali sono stati costretti a cancellare interventi chirurgici e appuntamenti per le analisi e a sospendere i nuovi ricoveri, con conseguenze imprevedibili per i pazienti affetti da malattie gravi.[42][43][44]
Trasporto aereo
In totale il 19 luglio nel mondo sono stati cancellati 6.855 voli, il 6,2% di tutti quelli programmati per quel giorno.[45] Un'interruzione di Microsoft Azure non correlata, che ha interessato servizi come Microsoft 365, ha aggravato i problemi delle compagnie aeree.[46]
Asia
L'aeroporto internazionale di Hong Kong ha subito ritardi durante i check-in, soprattutto per i passeggeri del vettore economico locale Hong Kong Express, il cui personale ha utilizzato cartelli scritti a mano per indirizzare i passeggeri ai banchi del check-in.[47] L'Autorità aeroportuale di Hong Kong ha attivato una risposta di emergenza dopo il malfunzionamento dei siti web delle compagnie aeree e del check-in automatico. I sistemi di prenotazione delle compagnie aeree locali Cathay Pacific, Hong Kong Express e Hong Kong Airlines non erano disponibili.[48] HKExpress ha cancellato alcuni voli il 20 luglio.[49]Jeju Air[50] e Spring Japan[50] hanno avuto problemi. Jetstar Japan ha cancellato molti voli (soprattutto nazionali).[51][52] Alcuni dei chioschi di self-check-in dell'aeroporto Changi di Singapore sono stati colpiti, ritardando e costringendo le compagnie aeree a passare al check-in manuale, e Singapore Airlines e Scoot hanno riportato vari livelli di difficoltà di servizio per tutto il 19 luglio.[53][54] I voli di Cebu Pacific e AirAsia Philippines hanno subito ritardi.[55][56][57] Si sono formate lunghe code all'aeroporto internazionale Ninoy Aquino.[58] A Taiwan, sono stati segnalati disservizi nei sistemi delle compagnie aeree all'aeroporto internazionale Taoyuan.[59] In Indonesia, sono stati segnalati disservizi nei sistemi di check-in di AirAsia e Citilink.[60] In Thailandia, sono stati colpiti i sistemi di prenotazione e check-in di AirAsia Thai.[61] In India, l'interruzione ha interessato IndiGo Airlines, Akasa Air, SpiceJet e Vistara. Durante l'interruzione del servizio sono state emesse carte d'imbarco scritte a mano. Il Ministero dell'aviazione civile ha chiesto e ordinato alle compagnie aeree e agli aeroporti di essere compassionevoli e di fornire cibo e posti a sedere ai clienti in attesa, a seconda delle necessità.[62][63][64][65] Alle 18:14 IST (12:44 UTC), più di 200 voli indiani erano stati cancellati; la sola IndiGo ne ha cancellati 192.[66] Le compagnie aeree che si affidano a Microsoft Azure per i loro servizi sono state colpite.[67]Air India e SpiceJet hanno dichiarato che nessuno dei loro voli è stato cancellato a causa dell'interruzione, attribuendola al loro solido sistema informatico, ma sono stati segnalati ritardi di pochi minuti.[68]
Swiss International Air Lines ha bloccato il 30% dei voli.[84]Lufthansa, in Germania, ha riscontrato problemi con le funzioni "profilo e recupero prenotazioni" del proprio sito web.[85] I servizi di prenotazione e check-in di Ryanair non erano disponibili e la compagnia è stata "costretta a cancellare un piccolo numero di voli", consigliando ai passeggeri di presentarsi negli aeroporti almeno tre ore prima della partenza.[86][87]Wizz Air ha dichiarato che l'interruzione ha messo offline i suoi servizi online.[88][89] La compagnia aerea olandeseKLM ha sospeso la maggior parte delle operazioni, annunciando l'impossibilità di gestire i voli a causa del problema,[73] e Transavia Airlines ha riscontrato problemi.[90]Finnair ha riferito di aver avuto problemi nell'invio di e-mail e SMS ai clienti.[91] In Grecia, cittadini e turisti hanno registrato ritardi nei principali aeroporti, in particolare all'Aeroporto Internazionale di Atene e all'Aeroporto Internazionale di Heraklion. Questa interruzione, che si è verificata al culmine della stagione turistica, ha provocato scene caotiche in quanto i passeggeri sono stati costretti ad aspettare per ore i loro voli. Tra i fattori che hanno contribuito a questa situazione vi sono la grave carenza di personale e i nuovi orari.[92][93] A Candia, otto voli hanno avuto problemi. Il capo dell'aeroporto ha indicato che i voli venivano organizzati manualmente per gestire l'interruzione, ma l'afflusso di voli in arrivo ha messo a dura prova il sistema.[94][95]
Diversi aeroporti del Regno Unito hanno avuto problemi, tra cui l'aeroporto di Edimburgo, i cui tabelloni delle partenze si sono bloccati,[96] e l'aeroporto di Gatwick, dove la scansione automatica dei codici a barre ha smesso di funzionare ed è stato necessario effettuare un controllo manuale.[50]Amadeus, che gestisce i bagagli del Regno Unito a Heathrow, ha dichiarato di essere stata colpita dal guasto informatico.[97] Nell'Isola di Man erano previsti disagi per i voli, in particolare da e per il Regno Unito, ma alla fine sono stati minimi.[98]
Medio Oriente e Nord Africa
In Tunisia si sono verificati temporanei disservizi aeroportuali.[99]Turkish Airlines ha cancellato alcuni dei suoi voli a causa dell'interruzione.[100]
Nord America
A metà mattinata di venerdì 19 luglio, United, Delta e American Airlines hanno imposto un ground stop (procedura che prevede che tutti gli aeromobili che rispondono a determinati criteri rimangano a terra), bloccando i decolli ma consentendo agli aerei in volo di raggiungere le loro destinazioni.[101][102] Anche Allegiant Air è rimasta "a terra" a causa del guasto.[103][104] Intorno alle 10:30, ora della costa orientale, l'AP ha riferito che circa 1.500 voli erano già stati cancellati negli Stati Uniti a causa del guasto.[8] American Airlines, United e Allegiant si sono riprese relativamente in fretta dopo venerdì 19.[105][106]
Delta, di gran lunga la più colpita tra le principali compagnie aeree statunitensi, ha invece subito un tracollo operativo che si è protratto per tutto il fine settimana. La compagnia ha cancellato più di 1.200 voli venerdì.[106][107] Migliaia di viaggiatori bloccati sono stati costretti a passare la notte all'aeroporto internazionale di Atlanta-Hartsfield-Jackson, il più grande hub di Delta e l'aeroporto più trafficato al mondo per traffico di passeggeri.[107] Gli alberghi e le società di autonoleggio di Metro Atlanta sono stati sopraffatti dalla crisi, e molti viaggiatori non hanno avuto altra scelta se non quella di rimanere in aeroporto.[108][109] Anche il personale di custodia dell'aeroporto è stato sopraffatto, con i servizi igienici e la spazzatura che, secondo quanto riferito, erano "fuori controllo".[109] Senza preavviso, Delta ha vietato i minori non accompagnati di salire sui suoi voli fino alla fine del 23 luglio, portando a ulteriori disagi.[110]
Delta ha cancellato più di 1.400 voli il 20 luglio[111] e più di 1.300 voli il 21 luglio.[112] Con così tanti passeggeri ancora bloccati a Hartsfield-Jackson dopo due notti consecutive, l'aeroporto ha attuato un "piano di crisi per le concessioni" e un piano per riunire i passeggeri con i loro bagagli registrati,[111] sebbene molti viaggiatori abbiano continuato a riferire di situazioni di disagio.[113]
Il 21 luglio, l'amministratore delegato di Delta Ed Bastian si è scusato con i clienti in un comunicato e ha rivelato che l'interruzione aveva lasciato uno dei programmi software di tracciamento degli equipaggi di Delta "incapace di elaborare efficacemente il numero senza precedenti di modifiche innescate dall'arresto del sistema".[112] Dopo l'arresto a terra che ha lasciato troppi membri dell'equipaggio nei posti sbagliati, Delta ha faticato a radunare un numero sufficiente di piloti e assistenti di volo ai gate degli aeroporti per operare i voli programmati.[113] Molti voli sono stati ripetutamente ritardati e infine cancellati perché uno o due membri dell'equipaggio che erano riusciti a raggiungere il gate per un determinato volo continuavano a superare il limite di tempo legale di volo prima che la compagnia aerea riuscisse a completare l'organico del volo, e questo ha fatto sì che la crisi si aggravasse, dato che quell'equipaggio e il suo aereo si trovavano ora nel posto sbagliato per i voli del giorno successivo.[114] Lo stesso giorno, il Segretario dei Trasporti degli Stati UnitiPete Buttigieg ha dichiarato sui social media che il Dipartimento dei trasporti degli Stati Uniti aveva ricevuto centinaia di reclami su Delta e ha ricordato alla compagnia aerea i suoi obblighi legali nei confronti dei passeggeri coinvolti.[112]
Il 22 luglio Delta ha cancellato più di 1.200 voli.[113] Il 23 luglio il Dipartimento dei Trasporti ha annunciato l'avvio di un'indagine formale sul trattamento dei passeggeri da parte di Delta.[113] I funzionari di Delta hanno promesso di collaborare, ma hanno affermato che la compagnia era concentrata sulla propria ripresa.[113] Il 23 luglio il Segretario Buttigieg ha stimato che più di 500.000 passeggeri sono stati colpiti dalle cancellazioni dei voli di Delta.[115]
Il 25 luglio Delta è tornata alle normali operazioni di volo, dopo aver cancellato più di 7.000 voli; i passeggeri hanno presentato più di 5.000 reclami su Delta al Dipartimento dei Trasporti.[116] Il 26 luglio il Washington Post ha riferito che il Dipartimento stava indagando su presunte comunicazioni ingannevoli da parte di Delta, che offriva solo crediti per futuri voli Delta come compensazione per i voli cancellati e non informava chiaramente i passeggeri del loro diritto legale a un rimborso in denaro.[113]
Il 31 luglio, l'amministratore delegato di Delta ha dichiarato che l'interruzione era costata alla compagnia aerea 500 milioni di dollari e che Delta avrebbe fatto causa a CrowdStrike per recuperare parte delle perdite.[117] L'8 agosto Delta ha confermato in un documento depositato presso la US Securities and Exchange Commission che oltre 7000 voli erano stati cancellati nell'arco di cinque giorni e ha stimato le perdite in 380 milioni di dollari di mancati introiti e 170 milioni di dollari di spese (per un totale di circa 550 milioni di dollari).[118] Delta ha inoltre stimato che circa 1,3 milioni di passeggeri erano stati colpiti dalle cancellazioni dei voli.[119]
Southwest Airlines non ha subito alcun danno. Un portavoce della Southwest ha confermato che la compagnia aerea non ha avuto alcun impatto dall'interruzione di CrowdStrike, ma ha rifiutato di confermare le speculazioni degli analisti del settore dell'aviazione secondo cui la compagnia sarebbe stata protetta dal suo software, che sarebbe notoriamente obsoleto.[120]
Questa sezione sull'argomento informatica è ancora vuota. Aiutaci a scriverla!
Telecomunicazioni
Questa sezione sull'argomento informatica è ancora vuota. Aiutaci a scriverla!
Finanza
Le azioni di Microsoft e CrowdStrike sono scese a causa dell'interruzione del servizio. Le azioni di CrowdStrike sono scese di oltre l'11% il 19 luglio, mentre quelle di Microsoft sono scese di meno dell'1%.[130]
Questa sezione sull'argomento informatica è ancora vuota. Aiutaci a scriverla!
Altri settori
Il guasto informatico ha anche causato problemi alla scuderia di Formula 1Mercedes AMG, che si stava preparando a partecipare al Gran Premio d'Ungheria che si sarebbe tenuto la domenica successiva.[144] Curiosamente, CrowdStrike è anche sponsor della stessa Mercedes.[145]
Responsabilità di CrowdStrike
I termini e le condizioni di CrowdStrike per il software Falcon limitano la responsabilità alle “tariffe pagate”, di fatto un rimborso. I clienti più grandi potrebbero aver negoziato condizioni diverse.[146]
Nell'UE, è possibile che CrowdStrike sia ritenuta responsabile ai sensi del regolamento GDPR relativo all'impatto degli incidenti di sicurezza sui dati degli utenti. Il regolamento è noto soprattutto in relazione alle fughe di dati, ma si applica anche alla distruzione dei dati. Non è chiaro se la perdita temporanea dell'accesso ai dati sia sufficiente a far scattare la responsabilità, o se il GDPR si applichi a tutti gli incidenti legati alla sicurezza o solo all'accesso non autorizzato.[147] Inoltre, l'incidente potrebbe essere classificato come una “violazione dei dati personali”, il che costituirebbe una violazione del GDPR ai sensi dell'articolo 4 denominato ‘Definizioni’, paragrafo 12.[147][148] Il 19 luglio 2024, un esperto di protezione dei dati ha segnalato quella che ritiene una violazione dell'articolo 32 denominato ‘Sicurezza del trattamento’.[147][149]
Reazioni
CrowdStrike ha offerto un buono da 10 dollari su Uber Eats alle aziende che vendono e forniscono supporto per i software di CrowdStrike come compensazione per il danno arrecato, scatenando critiche e scherno dato l'enorme danno economico che il guasto ha causato.[150] Peraltro, dopo un po' Uber ha segnalato il codice come sospetto dato che era stato usato molto di frequente, e ne ha bloccato l'utilizzo.[151]
Negli Stati Uniti, il CEO di CrowdStrike George Kurtz è stato ascoltato in audizione al Congresso riguardo al guasto informatico causato dalla sua azienda.[152]
In Italia, il Garante per la protezione dei dati personali ha avviato accertamenti su possibili impatti sui dati personali degli utenti italiani, in particolare nell'utilizzo dei servizi pubblici.[153]
In un post su X, Elon Musk, CEO di Neuralink, SpaceX, Tesla e X, ha dichiarato che i software di CrowdStrike erano stati rimossi da tutti i loro sistemi.[154]
Le aziende cinesi Qihoo 360 e Tencent hanno approfittato del guasto di CrowdStrike per promuovere i loro software per la cibersicurezza.[155]
Analisi
CrowdStrike rilascia più volte al giorno degli aggiornamenti della configurazione di Falcon Sensor per identificare possibili nuove tecniche di minaccia. Tali file di configurazione sono chiamati channel file dalla stessa CrowdStrike e, nei sistemi Windows, vengono salvati nella cartella C:\Windows\System32\driver\CrowdStrike\. Uno di questi, il channel file 291, controlla il modo in cui Falcon monitora le named pipe.[156]
I channel file sono costruiti sulla base di template che definiscono la struttura dei file e permettono al software di leggerli e interpretarli correttamente. A partire dalla versione 7.11 di Falcon Sensor nel febbraio 2024, il template utilizzato per il channel file 291 consisteva di 21 campi, ognuno dei quali contenente un parametro. Il codice che generava il contenuto di quel file tuttavia forniva solamente 20 parametri. Questa discordanza non è stata rilevata da nessuno dei meccanismi di controllo e di validazione utilizzati per testare i nuovi rilasci.[157]
L'aggiornamento del 19 luglio apportava delle modifiche al Falcon Sensor che lo portavano a dover ispezionare il parametro posizionato nel 21º campo del channel file 291. Prima di quel momento il software non aveva mai fatto uso di quel campo. Il tentativo di accedere al 21º elemento ha causato una lettura di memoria fuori limite dovuta al tentativo di leggere oltre la fine dell’array, la quale ha provocato
un arresto anomalo del sistema.[157]
In particolare, uno dei componenti del software Falcon, chiamato CSAgent.sys, ha provato ad accedere all'indirizzo di memoria non valido 0x000000000000009c.[158] Poiché Falcon veniva eseguito nel kernel mode, il tentativo di accesso ad un indirizzo di memoria non valido ha causato il crash dell'intero sistema operativo.[159]
Errori e pratiche sbagliate
L'indagine interna svolta dalla stessa CrowdStrike ha identificato diversi errori che hanno portato al rilascio dell'aggiornamento difettoso:[157]
nel linguaggio di programmazione C la dimensione di un arraynon viene controllata prima di accedere ad un determinato indice e nessuna verifica della dimensione era stata implementata nel software; quest'ultimo si aspettava di trovare un array con 21 elementi, ma uno specifico channel file seguiva un formato più vecchio con solo 20 elementi;
nei test manuali venivano impiegati solo dati validi;
i channel file non contenevano un numero di versione che permettesse di controllare quale formato seguivano;
non c'è stato un rilascio graduale, ma l'aggiornamento è stato distribuito immediatamente a tutti gli utenti;
il software veniva eseguito nel ring 0 (il livello di privilegio massimo nell'architettura x86) del sistema operativo; tuttavia un crash in questo livello causa il blocco dell'intero sistema operativo.
CrowdStrike e Microsoft sono state ampiamente criticate per le evidenti carenze nei processi di test e nelle metodologie utilizzate per la validazione degli aggiornamenti, evidenziando come un bug così catastrofico non sia stato individuato prima del rilascio dell'aggiornamento, non fossero stati predisposti dei piani di contingenza per effettuare rapidamente un rollback del software qualora ce ne fosse stata la necessità, e la stessa esistenza di un tale punto di vulnerabilità al livello del kernel del sistema operativo.[160]
Sono anche state sollevate delle critiche per il fatto che un aggiornamento così sensibile sia stato rilasciato in tarda serata,[Nota 2] quando presumibilmente gran parte dei dipendenti di CrowdStrike era già andata a casa, rendendo così più lenta la reazione dell'azienda quando il problema è emerso.[161]
Microsoft ha invece dato la colpa del guasto all'Unione europea, sostenendo che, in base ad un accordo del 2009 stipulato tra l'UE e la stessa Microsoft per evitare un'indagine per pratiche monopolistiche, quest'ultima era stata costretta a consentire a software di sicurezza di terze parti di accedere al kernel del sistema operativo, accesso prima consentito solo al software Windows Defender prodotto dalla stessa Microsoft.[162][163][164][165] Un portavoce della Commissione europea ha risposto che Microsoft non aveva mai sollevato obiezioni per questioni di sicurezza né prima né dopo la stipula dell'accordo e che spetta a Microsoft garantire la sicurezza della propria infrastruttura senza limitare il diritto alla concorrenza nell'Unione.[166]
L'incidente di CrowdStrike ha comunque evidenziato la fragilità dell'infrastruttura informatica mondiale e la sua dipendenza da pochi software, sistemi operativi e aziende che costituiscono punti di vulnerabilità critici della rete globale.[167][168][169]
Note
Note esplicative
^L'aggiornamento difettoso è stato disponibile in questo intervallo di tempo; le conseguenze tuttavia sono proseguite anche nelle ore e nei giorni successivi.
^Le 4:09 UTC di venerdì 19 luglio 2024 erano le 23:09 di giovedì ad Austin, città dove ha sede CrowdStrike.