(https://i.postimg.cc/Cx1k01nF/Cloudflare.png) (https://postimages.org/)
Un intento de bloquear una URL de phishing en la plataforma de almacenamiento de objetos R2 de Cloudflare fracasó ayer, lo que desencadenó una interrupción generalizada que dejó fuera de servicio varios servicios durante casi una hora.
Cloudflare R2 es un servicio de almacenamiento de objetos similar a Amazon S3, diseñado para un almacenamiento de datos escalable, duradero y de bajo costo. Ofrece recuperaciones de datos sin costo, compatibilidad con S3, replicación de datos en múltiples ubicaciones e integración con el servicio Cloudflare.
La interrupción se produjo ayer cuando un empleado respondió a un informe de abuso sobre una URL de phishing en la plataforma R2 de Cloudflare. Sin embargo, en lugar de bloquear el punto de conexión específico, el empleado desactivó por error todo el servicio R2 Gateway.
"Durante una remediación de abuso de rutina, se tomaron medidas sobre una queja que inadvertidamente deshabilitó el servicio R2 Gateway en lugar del punto de conexión/depósito específico asociado con el informe", explicó Cloudflare en su informe posterior.
"Se trató de un fallo de varios controles a nivel de sistema (en primer lugar) y de la capacitación de los operadores".
El incidente duró 59 minutos, entre las 08:10 y las 09:09 UTC, y además del propio almacenamiento de objetos R2, también afectó a servicios como:
Stream: 100 % de fallas en las cargas de video y la entrega de streaming.
Images: 100 % de fallas en las cargas/descargas de imágenes.
Cache Reserve: 100 % de fallas en las operaciones, lo que provoca un aumento en las solicitudes de origen.
Vectorize: 75 % de fallas en las consultas, 100 % de fallas en las operaciones de inserción, actualización y eliminación.
Log Delivery: demoras y pérdida de datos: hasta un 13,6 % de pérdida de datos para los registros relacionados con R2, hasta un 4,5 % de pérdida de datos para los trabajos de entrega que no son de R2.
Key Transparency Auditor: 100 % de fallas en las operaciones de lectura y publicación de firmas.
También hubo servicios afectados indirectamente que experimentaron fallas parciales, como Durable Objects, que tuvo un aumento de tasa de error del 0,09 % debido a reconexiones después de la recuperación, Cache Purge, que experimentó un aumento del 1,8 % en errores (HTTP 5xx) y un pico de latencia de 10x, y Workers & Pages, que tuvo un 0,002 % de fallas de implementación, lo que afectó solo a proyectos con enlaces R2.
Diagrama de disponibilidad del servicio
(https://www.bleepstatic.com/images/news/u/1220909/2025/February/outage.jpg)
Cloudflare señala que tanto el error humano como la ausencia de salvaguardas, como controles de validación para acciones de alto impacto, fueron clave para este incidente.
El gigante de Internet ahora ha implementado soluciones inmediatas, como eliminar la capacidad de apagar sistemas en la interfaz de revisión de abusos y restricciones en la API de administración para evitar la desactivación del servicio en cuentas internas.
Entre las medidas adicionales que se implementarán en el futuro se incluyen un mejor aprovisionamiento de cuentas, un control de acceso más estricto y un proceso de aprobación de dos partes para acciones de alto riesgo.
En noviembre de 2024, Cloudflare experimentó otra interrupción notable durante 3,5 horas, lo que resultó en la pérdida irreversible del 55 % de todos los registros del servicio.
Ese incidente fue causado por fallas en cascada en los sistemas de mitigación automática de Cloudflare que se activaron al enviar una configuración incorrecta a un componente clave en el flujo de registro de la empresa.
Fuente:
BleepingComputer
https://www.bleepingcomputer.com/news/security/cloudflare-outage-caused-by-botched-blocking-of-phishing-url/