Cloudflare a rétabli ses services après une panne mondiale et a publié un rapport post-incident expliquant la cause de la perturbation. L’entreprise a indiqué que l’événement avait commencé tôt le 18 novembre lorsqu’un fichier mal configuré dans son système de gestion de bots a causé des défaillances sur plusieurs composants internes. Les processus de routage du trafic étaient affectés lorsque le fichier de configuration surdimensionné se propageait à travers des systèmes non conçus pour le gérer. Cloudflare a confirmé qu’une cyberattaque n’a pas causé l’incident. Le directeur général de l’entreprise, Matthew Prince, a présenté des excuses publiques et a déclaré que l’organisation réévaluait les procédures pour éviter des échecs similaires.
Selon l’entreprise, le problème est né d’un changement des permissions de la base de données qui a produit un fichier de configuration bien plus gros que prévu. Lorsque ce fichier était distribué sur le réseau, il déclenchait des plantages logiciels qui affectaient les fonctions de routage. Les services qui dépendent de Cloudflare pour la diffusion de contenu, la résolution DNS et la protection réseau ont connu des pannes intermittentes ou sont devenus inaccessibles. Des plateformes telles que ChatGPT, X, Spotify et les sites de surveillance des pannes faisaient partie des personnes concernées car elles dépendaient de l’infrastructure mondiale de Cloudflare. Le problème a persisté pendant plusieurs heures pendant que les ingénieurs cherchaient à isoler la cause et à annuler la configuration problématique.
Cloudflare a déclaré que cette panne représentait sa perturbation de service la plus importante depuis 2019. L’entreprise publiait des mises à jour régulières au fur et à mesure de la restauration des systèmes et notait que certaines incohérences de performance pouvaient persister pendant la période de récupération. Les ingénieurs ont introduit une solution, et les outils de surveillance ont indiqué que les conditions réseau se stabilisaient plus tard dans la journée. Cloudflare a ajouté qu’elle continuerait d’analyser les journaux système et les schémas de routage afin de vérifier que les opérations sont revenues à la normale.
L’incident met en lumière l’impact significatif qu’un petit nombre de grands fournisseurs de services réseau ont sur la disponibilité des services en ligne. Cloudflare gère de grands volumes de trafic mondial et assure des fonctions essentielles pour les entreprises, les entités gouvernementales et les plateformes numériques. Lorsqu’une défaillance survient dans son infrastructure, les effets peuvent se propager largement car de nombreuses organisations font passer les données par les mêmes systèmes centraux. Les analystes affirment que cette panne renforce l’importance de renforcer la résilience dans l’infrastructure internet et de diversifier les services critiques lorsque cela est possible.
Cloudflare a présenté plusieurs étapes de suivi dans son rapport. Cela inclut la revue du traitement des fichiers de configuration, l’amélioration des protections pour détecter des tailles anormales de fichiers, la création de mécanismes globaux pour stopper la propagation de mises à jour défectueuses, et le renforcement de la résilience des composants supportant le routage à haut volume. L’entreprise a indiqué que ces travaux étaient en cours et que d’autres mises à jour seraient publiées au fur et à mesure de la mise en œuvre des améliorations.
Les organisations ayant connu des interruptions pendant la panne évaluent l’impact sur les services clients et les opérations internes. Les spécialistes du secteur conseillent aux entreprises d’évaluer les plans de continuité des activités, surtout si elles dépendent fortement d’un seul fournisseur pour le routage du trafic ou la diffusion de contenu. Des approches telles que le déploiement multi-fournisseurs ou le routage de secours peuvent aider à maintenir la disponibilité des services lorsqu’un fournisseur subit une défaillance généralisée.