Cosa è successo alla fine alla Cloudflare la scorsa settimana?

Qual è stata la conclusione per Cloudflare la scorsa settimana?

Cloudflare su telefono

Il 2 novembre 2023, le interfacce di Cloudflare rivolte ai clienti, inclusi il loro sito web e le API, insieme al logging e alle analisi, hanno smesso di funzionare correttamente. Questo è stato brutto.

Oltre 7,5 milioni di siti web utilizzano Cloudflare, e 3.280 dei 10.000 siti web più popolari del mondo dipendono dai suoi servizi di rete di distribuzione dei contenuti (CDN). La buona notizia è che la CDN non si è bloccata. La brutta notizia è che la dashboard di Cloudflare e le sue API correlate sono state inattive per quasi due giorni.

Inoltre: I migliori servizi VPN (e come scegliere quello giusto per te)

Una cosa del genere non accade — o almeno non dovrebbe — a importanti aziende di servizi internet. Quindi, la domanda da un milione di dollari è: “Cosa è successo?” La risposta, secondo il CEO di Cloudflare, Matthew Prince, è stato un incidente legato all’alimentazione in un trio dei principali data center dell’azienda in Oregon, gestiti da Flexential, che ha innescato una serie di problemi. Trentasei ore dopo, Cloudflare è tornato finalmente alla normalità.

Prince non ha girato intorno al problema:

Per cominciare, questo non sarebbe mai dovuto accadere. Credevamo di avere sistemi ad alta disponibilità che avrebbero dovuto evitare un’interruzione come questa, anche quando uno dei nostri principali fornitori di data center avesse un fallimento catastrofico. E, sebbene molti sistemi rimanessero online come previsto, alcuni sistemi critici avevano dipendenze non ovvie che li rendevano indisponibili. Mi scuso e mi imbarazzo per questo incidente e per il disagio che ha causato ai nostri clienti e al nostro team.

Ha ragione — questo incidente non sarebbe mai dovuto accadere. Il controllo e gli analitici di Cloudflare sono eseguiti su server in tre data center situati attorno a Hillsboro, Oregon. Tuttavia, sono tutti indipendenti l’uno dall’altro; ognuno dispone di più fonti di alimentazione e connessioni internet ridondanti e indipendenti.

Il trio di data center non è così vicino da poter essere interessato da un disastro naturale che li farebbe tutti bloccare contemporaneamente. Allo stesso tempo, sono abbastanza vicini da poter eseguire cluster di dati attivi ridondanti. Quindi, in teoria, se una delle strutture si disconnette, le altre dovrebbero assumersi il carico e continuare a funzionare.

Sembra fantastico, no? Tuttavia, non è quello che è successo.

Prima di tutto, un’interruzione di corrente presso la struttura di Flexential ha causato un’interruzione inattesa del servizio. Portland General Electric (PGE) è stato costretto a spegnere uno dei suoi collegamenti di alimentazione indipendenti per l’edificio. Il data center dispone di diverse fonti di alimentazione con un certo grado di indipendenza che possono alimentare l’infrastruttura. Tuttavia, Flexential ha avviato i propri generatori per integrare la fonte di alimentazione interrotta.

Questo approccio, per inciso, per coloro che non conoscono le migliori pratiche dei data center, è un no-no. Non si utilizza l’alimentazione esterna e i generatori nello stesso momento. Ad aggravare la situazione, Flexential non ha detto a Cloudflare che erano passati ai generatori.

Inoltre: 10 modi per velocizzare la tua connessione internet oggi

Quindi, c’è stato un guasto a terra su un trasformatore PGE che stava entrando nel data center. E quando dico guasto a terra, non intendo un corto circuito, come quello che ti fa scendere in cantina per riparare un fusibile. Intendo un cattivo ragazzo da 12.470 volt che ha abbattuto la connessione e tutti i generatori in meno tempo di quanto hai impiegato a leggere questa frase.

In teoria, una serie di batterie UPS avrebbe dovuto mantenere i server in funzione per 10 minuti, il che avrebbe dovuto essere sufficiente per riavviare i generatori. Invece, le UPS hanno iniziato a spegnersi dopo circa quattro minuti, e i generatori non sono mai ripartiti in tempo comunque.

Ops.

Potrebbe non esserci stato nessuno in grado di salvare la situazione, ma quando il personale presente notturno consiste in sicurezza e un tecnico non accompagnato che lavora da solo da una settimana, la situazione è senza speranza.

Inoltre:Le migliori VPN per iPhone e iPad (sì, ne hai bisogno)

Nel frattempo, Cloudflare ha scoperto a sue spese che alcuni sistemi importanti e servizi più recenti non erano ancora integrati nel suo setup ad alta disponibilità. Inoltre, la decisione di tenere i sistemi di registrazione fuori dal cluster ad alta disponibilità, perché i ritardi delle analisi erano accettabili, si è rivelata sbagliata. Poiché il personale di Cloudflare non poteva dare un’occhiata ai registri per capire cosa stava andando storto, l’interruzione ha continuato a persistere.

Si è scoperto che, sebbene i tre data center fossero “in gran parte” ridondanti, non lo erano completamente. Gli altri due data center che funzionavano nella zona hanno assunto la responsabilità del cluster ad alta disponibilità e hanno mantenuto i servizi critici online.

Fino a qui tutto bene. Tuttavia, un gruppo di servizi che avrebbero dovuto essere nel cluster ad alta disponibilità aveva dipendenze da servizi che funzionavano esclusivamente nel data center inattivo. Specificamente, due servizi critici che elaborano i log e alimentano le analisi di Cloudflare – Kafka e ClickHouse – erano disponibili solo nel data center offline. Pertanto, quando i servizi nel cluster ad alta disponibilità richiamavano Kafka e Clickhouse, hanno fallito.

Cloudflare ammette che è stata “troppo lassista nel richiedere ai nuovi prodotti e ai relativi database di integrarsi con il cluster ad alta disponibilità”. Inoltre, troppi dei suoi servizi dipendono dalla disponibilità delle sue strutture principali.

Molte aziende fanno così, ma Prince ha ammesso che questo “non sfrutta a pieno i punti di forza di Cloudflare. Siamo bravi nei sistemi distribuiti. Durante questa situazione, la nostra rete globale ha continuato a funzionare come previsto, ma troppe cose falliscono se il core non è disponibile. Dobbiamo utilizzare i prodotti di sistemi distribuiti che mettiamo a disposizione di tutti i nostri clienti per tutti i nostri servizi, in modo che continuino a funzionare principalmente come al solito anche se le nostre strutture principali subiscono interruzioni. “

Inoltre: Cybersecurity 101: tutto su come proteggere la tua privacy e rimanere al sicuro online

Ore dopo, tutto era finalmente tornato in funzione, e non è stato facile. Ad esempio, quasi tutti gli interruttori erano bruciati e Flexentail ha dovuto andare a comprarne altri per sostituirli tutti.

Considerando che c’erano stati più sovraccarichi di corrente, Cloudflare ha deciso che “l’unico processo sicuro per il ripristino era seguire un completo ripristino di tutta la struttura”. Questo approccio ha comportato la ricostruzione e il riavvio di tutti i server, il che ha richiesto ore.

L’incidente, che è durato fino al 4 novembre, è stato risolto alla fine. Guardando avanti, Prince ha concluso: “Abbiamo i sistemi e le procedure corrette per poter resistere anche alla sequela di fallimenti che abbiamo visto presso il nostro fornitore di data center, ma dobbiamo essere più rigorosi nel far rispettare queste procedure e testarle per dipendenze sconosciute. Questo avrà la mia completa attenzione e l’attenzione di gran parte del nostro team per tutto il resto dell’anno. E il dolore degli ultimi giorni ci renderà migliori”.