Cloudflare ha ripristinato i servizi dopo un’interruzione globale e ha pubblicato un rapporto post-incidente che spiega la causa dell’interruzione. L’azienda ha dichiarato che l’evento è iniziato all’inizio del 18 novembre quando un file configurato male all’interno del suo sistema di gestione dei bot ha causato guasti su più componenti interni. I processi di instradamento del traffico venivano influenzati poiché il file di configurazione sovradimensionato si propagava attraverso sistemi non progettati per gestirlo. Cloudflare ha confermato che non è stato un attacco informatico a causare l’incidente. L’amministratore delegato dell’azienda, Matthew Prince, ha rilasciato delle scuse pubbliche e ha dichiarato che l’organizzazione sta rivedendo le procedure per prevenire fallimenti simili.
Secondo l’azienda, il problema è nato da una modifica ai permessi del database che ha prodotto un file di configurazione molto più grande del previsto. Quando questo file veniva distribuito nella rete, attivava crash software che influivano sulle funzioni di instradamento. I servizi che dipendono da Cloudflare per la distribuzione dei contenuti, la risoluzione DNS e la protezione della rete hanno subito guasti intermittenti o sono diventati irraggiungibili. Piattaforme come ChatGPT, X, Spotify e siti di monitoraggio delle interruzioni sono state tra le colpite perché si affidano all’infrastruttura globale di Cloudflare. Il problema è persistito per diverse ore mentre gli ingegneri cercavano di isolare la causa e di annullare la configurazione problematica.
Cloudflare ha dichiarato che l’interruzione rappresenta la più significativa interruzione del servizio dal 2019. L’azienda pubblicava aggiornamenti regolari man mano che i sistemi venivano ripristinati e osservava che alcune incongruenze di prestazioni potevano persistere durante il periodo di recupero. Gli ingegneri hanno introdotto una correzione e gli strumenti di monitoraggio hanno indicato che le condizioni della rete si sono stabilizzate più tardi lo stesso giorno. Cloudflare ha aggiunto che continuerà ad analizzare i log di sistema e i modelli di routing per verificare che le operazioni siano tornate alla normalità.
L’incidente evidenzia l’impatto significativo che un piccolo numero di grandi fornitori di servizi di rete ha sulla disponibilità dei servizi online. Cloudflare gestisce grandi volumi di traffico globale e fornisce funzioni essenziali per aziende, enti governativi e piattaforme digitali. Quando si verifica un guasto all’interno della sua infrastruttura, gli effetti possono diffondersi ampiamente perché molte organizzazioni instradano i dati attraverso gli stessi sistemi centrali. Gli analisti affermano che l’interruzione rafforza l’importanza di costruire resilienza nell’infrastruttura internet e di diversificare i servizi critici quando possibile.
Cloudflare ha illustrato diversi passaggi di follow-up nel suo rapporto. Questi includono la revisione di come vengono processati i file di configurazione, il miglioramento delle salvaguardie che rilevano dimensioni anomale dei file, la creazione di meccanismi globali per fermare la propagazione di aggiornamenti difettosi e il rafforzamento della resilienza dei componenti che supportano il routing ad alto volume. L’azienda ha dichiarato che questo lavoro è in corso e che ulteriori aggiornamenti saranno pubblicati man mano che verranno implementati miglioramenti.
Le organizzazioni che hanno subito tempi di inattività durante l’interruzione stanno valutando l’impatto sul servizio clienti e sulle operazioni interne. Gli specialisti del settore consigliano alle aziende di valutare i piani di continuità aziendale, soprattutto se si affidano fortemente a un unico fornitore per l’instradamento del traffico o la distribuzione dei contenuti. Approcci come il deployment multi-vendor o il fallback routing possono aiutare a mantenere la disponibilità del servizio quando un fornitore subisce un guasto diffuso.
