A Cloudflare restaurou os serviços após uma queda global e divulgou um relatório pós-incidente explicando a causa da interrupção. A empresa informou que o evento começou no início de 18 de novembro, quando um arquivo mal configurado em seu sistema de gerenciamento de bots causou falhas em vários componentes internos. Os processos de roteamento de tráfego foram afetados à medida que o arquivo de configuração superdimensionado se propagava por sistemas que não foram projetados para lidar com ele. A Cloudflare confirmou que um ataque cibernético não causou o incidente. O diretor executivo da empresa, Matthew Prince, emitiu um pedido público de desculpas e disse que a organização está revisando procedimentos para evitar falhas semelhantes.
Segundo a empresa, o problema se originou de uma alteração nas permissões do banco de dados que gerou um arquivo de configuração muito maior do que o esperado. Quando esse arquivo era distribuído pela rede, ele acionava travamentos de software que afetavam as funções de roteamento. Serviços que dependem da Cloudflare para entrega de conteúdo, resolução de DNS e proteção de rede sofreram falhas intermitentes ou se tornaram inalcançáveis. Plataformas como ChatGPT, X, Spotify e sites de monitoramento de quedas ficaram entre as afetadas por dependerem da infraestrutura global da Cloudflare. O problema persistiu por várias horas enquanto os engenheiros trabalhavam para isolar a causa e reverter a configuração problemática.
A Cloudflare afirmou que a interrupção de serviço representou a maior interrupção de serviço desde 2019. A empresa publicava atualizações regulares à medida que os sistemas eram restaurados e observava que algumas inconsistências de desempenho poderiam continuar durante o período de recuperação. Os engenheiros introduziram uma correção, e as ferramentas de monitoramento indicaram que as condições da rede se estabilizaram ainda no mesmo dia. A Cloudflare acrescentou que continuará analisando logs do sistema e padrões de roteamento para verificar se as operações voltaram ao normal.
O incidente destaca o impacto significativo que um pequeno número de grandes provedores de serviços de rede tem na disponibilidade de serviços online. A Cloudflare lida com grandes volumes de tráfego global e oferece funções essenciais para empresas, entidades governamentais e plataformas digitais. Quando ocorre uma falha em sua infraestrutura, os efeitos podem se espalhar amplamente porque muitas organizações roteiam dados pelos mesmos sistemas centrais. Analistas afirmam que a queda reforça a importância de construir resiliência na infraestrutura de internet e diversificar serviços críticos sempre que possível.
A Cloudflare delineou vários passos de acompanhamento em seu relatório. Essas incluem revisar como os arquivos de configuração são processados, melhorar as salvaguardas que detectam tamanhos anormais de arquivos, criar mecanismos globais para interromper a propagação de atualizações defeituosas e fortalecer a resiliência dos componentes que suportam roteamento de alto volume. A empresa informou que esse trabalho está em andamento e que novas atualizações serão publicadas à medida que melhorias forem implementadas.
Organizações que tiveram tempo de inatividade durante a interrupção estão avaliando o impacto no atendimento ao cliente e nas operações internas. Especialistas do setor aconselham as empresas a avaliar planos de continuidade de negócios, especialmente se dependem fortemente de um único provedor para roteamento de tráfego ou entrega de conteúdo. Abordagens como implantação multi-fornecedor ou roteamento de reserva podem ajudar a manter a disponibilidade do serviço quando um provedor sofre uma falha generalizada.