(https://www.bleepstatic.com/content/hl-images/2023/11/02/cloudflare.jpg)
Cloudflare ha confirmado que la interrupción masiva del servicio de ayer no se debió a un incidente de seguridad y que no se han perdido datos.
El problema se ha mitigado en gran medida. Comenzó a las 17:52 UTC de ayer cuando el sistema Workers KV (Clave-Valor) se desconectó por completo, lo que provocó pérdidas generalizadas de servicio en múltiples servicios de edge computing e IA.
Workers KV es un almacén de clave-valor consistente y distribuido globalmente que utiliza Cloudflare Workers, la plataforma de computación sin servidor de la compañía. Es un componente fundamental de muchos servicios de Cloudflare y un fallo puede causar problemas en cascada en muchos componentes.
La interrupción también afectó a otros servicios utilizados por millones de usuarios, en particular a Google Cloud Platform.
(https://www.bleepstatic.com/images/news/u/1220909/2025/June/error-rates.png)
En un análisis posterior, Cloudflare explica que la interrupción duró casi 2,5 horas y que la causa principal fue un fallo en la infraestructura de almacenamiento subyacente de Workers KV debido a la interrupción de un proveedor de nube externo.
"La causa de esta interrupción se debió a un fallo en la infraestructura de almacenamiento subyacente utilizada por nuestro servicio Workers KV, que es una dependencia crítica para muchos productos de Cloudflare y de la que dependen para la configuración, la autenticación y la entrega de recursos en los servicios afectados", afirma Cloudflare.
"Parte de esta infraestructura está respaldada por un proveedor de nube externo, que sufrió una interrupción hoy y afectó directamente la disponibilidad de nuestro servicio KV".
Cloudflare ha determinado el impacto del incidente en cada servicio:
Workers KV: experimentó una tasa de fallos del 90,22 % debido a la indisponibilidad del almacenamiento backend, lo que afectó a todas las lecturas y escrituras no almacenadas en caché. Access, WARP y Gateway sufrieron fallos críticos en la autenticación basada en identidad, la gestión de sesiones y la aplicación de políticas debido a la dependencia de Workers KV. WARP no pudo registrar nuevos dispositivos y se interrumpieron el proxy de Gateway y las consultas DoH.
Dashboard, Turnstile y Desafíos: se experimentaron fallos generalizados de inicio de sesión y verificación CAPTCHA, con riesgo de reutilización de tokens debido a la activación del interruptor de seguridad en Turnstile.
Aislamiento y renderizado del navegador: no se pudieron iniciar ni mantener sesiones basadas en enlaces ni tareas de renderizado del navegador debido a fallos en cascada en Access y Gateway.
Stream, Imágenes y Páginas: experimentaron fallos funcionales importantes: la reproducción de streams y la transmisión en vivo fallaron, la carga de imágenes se redujo al 0 % y la compilación/servicio de páginas alcanzó un pico de aproximadamente el 100 % de fallos.
Workers AI y AutoRAG no estuvieron disponibles debido a la dependencia de KV para la configuración del modelo, el enrutamiento y las funciones de indexación. Objetos duraderos, D1, Colas: los servicios basados en la misma capa de almacenamiento que KV sufrieron tasas de error de hasta el 22 % o indisponibilidad total para la cola de mensajes y las operaciones de datos.
Tiempo real y puerta de enlace de IA: sufrieron una interrupción casi total del servicio debido a la imposibilidad de recuperar la configuración de Workers KV, con un grave impacto en las solicitudes de Realtime TURN/SFU y de AI Gateway.
Activos de Zaraz y Workers: experimentaron fallos totales o parciales al cargar o actualizar configuraciones y activos estáticos, aunque el impacto para el usuario final fue limitado.
CDN, Workers para plataformas, compilaciones de Workers: experimentaron un aumento de latencia y errores regionales en algunas ubicaciones, y las nuevas compilaciones de Workers fallaron al 100 % durante el incidente.
En respuesta a esta interrupción, Cloudflare afirma que acelerará varios cambios centrados en la resiliencia, principalmente eliminando la dependencia de un único proveedor de nube externo para el almacenamiento backend de Workers KV.
Gradualmente, el almacén central de KV se migrará al almacenamiento de objetos R2 de Cloudflare para reducir la dependencia externa.
Cloudflare también planea implementar medidas de seguridad entre servicios y desarrollar nuevas herramientas para restaurar gradualmente los servicios durante las interrupciones del almacenamiento, evitando picos de tráfico que podrían saturar los sistemas en recuperación y causar fallos secundarios.
Fuente:
BleepingComputer
https://www.bleepingcomputer.com/news/security/cloudflare-outage-not-caused-by-security-incident-data-is-safe/