Cloudflare restaura los servicios y explica la causa de la interrupción global

Cloudflare ha restaurado los servicios tras una caída global y ha publicado un informe posterior al incidente explicando la causa de la interrupción. La empresa dijo que el evento comenzó a primera hora del 18 de noviembre cuando un archivo mal configurado dentro de su sistema de gestión de bots causó fallos en varios componentes internos. Los procesos de enrutamiento del tráfico se vieron afectados a medida que el archivo de configuración sobredimensionado se propagaba a través de sistemas que no estaban diseñados para manejarlo. Cloudflare confirmó que no fue un ciberataque la causa del incidente. El director ejecutivo de la empresa, Matthew Prince, emitió una disculpa pública y afirmó que la organización está revisando los procedimientos para evitar fallos similares.

Según la empresa, el problema se originó por un cambio en los permisos de la base de datos que produjo un archivo de configuración mucho mayor de lo esperado. Cuando este archivo se distribuía por la red, provocaba fallos de software que afectaban a las funciones de enrutamiento. Los servicios que dependen de Cloudflare para la entrega de contenido, resolución DNS y protección de red sufrieron fallos intermitentes o se volvieron inaccesibles. Plataformas como ChatGPT, X, Spotify y sitios de monitorización de cortes se vieron afectadas porque dependen de la infraestructura global de Cloudflare. El problema persistió durante varias horas mientras los ingenieros intentaban aislar la causa y revertir la configuración problemática.

Cloudflare afirmó que la interrupción de servicio representa su mayor interrupción de servicio desde 2019. La empresa publicaba actualizaciones regulares a medida que se restauraban los sistemas y señalaba que algunas inconsistencias de rendimiento podían persistir durante el periodo de recuperación. Los ingenieros introdujeron una solución, y las herramientas de monitorización indicaron que las condiciones de la red se estabilizaron más tarde ese mismo día. Cloudflare añadió que continuará analizando los registros del sistema y los patrones de enrutamiento para verificar que las operaciones han vuelto a la normalidad.

El incidente pone de manifiesto el impacto significativo que un pequeño número de grandes proveedores de servicios de red tienen en la disponibilidad de servicios en línea. Cloudflare gestiona grandes volúmenes de tráfico global y proporciona funciones esenciales para empresas, entidades gubernamentales y plataformas digitales. Cuando ocurre un fallo en su infraestructura, los efectos pueden extenderse ampliamente porque muchas organizaciones enrutan datos a través de los mismos sistemas centrales. Los analistas afirman que la interrupción refuerza la importancia de construir resiliencia en la infraestructura de internet y diversificar los servicios críticos cuando sea posible.

Cloudflare detalló varios pasos de seguimiento en su informe. Estos incluyen revisar cómo se procesan los archivos de configuración, mejorar las salvaguardas que detectan tamaños anómalos de archivos, crear mecanismos globales para detener la propagación de actualizaciones defectuosas y fortalecer la resiliencia de los componentes que soportan enrutamiento de alto volumen. La empresa indicó que este trabajo continúa y que se publicarán más actualizaciones a medida que se implementen mejoras.

Las organizaciones que experimentaron inactividad durante la interrupción están evaluando el impacto en el servicio al cliente y las operaciones internas. Los especialistas del sector aconsejan a las empresas evaluar los planes de continuidad del negocio, especialmente si dependen en gran medida de un único proveedor para el enrutamiento del tráfico o la entrega de contenidos. Enfoques como el despliegue multi-proveedor o el enrutamiento de respaldo pueden ayudar a mantener la disponibilidad del servicio cuando un proveedor sufre un fallo generalizado.