Google vincula interrupción masiva de la nube a un problema de gestión de API

AXCESS · Junio 14, 2025, 04:47:17 AM

Google afirma que un problema de gestión de API es la causa de la interrupción masiva de Google Cloud del jueves, que interrumpió o dejó fuera de servicio sus servicios y muchas otras plataformas en línea.

Google afirma que la interrupción de la nube comenzó alrededor de las 10:49 ET y finalizó a las 3:49 ET, tras causar problemas a millones de usuarios en todo el mundo durante más de tres horas.

Además de Google Cloud, el incidente también afectó a Gmail, Google Calendar, Google Chat, Google Cloud Search, Google Docs, Google Drive, Google Meet, Google Tasks, Google Voice, Google Lens, Discover y Voice Search.

Sin embargo, también causó problemas generalizados en plataformas de terceros que dependen de Google Cloud, como Spotify, Discord, Snapchat, NPM, Firebase Studio y un número limitado de servicios de Cloudflare que dependen del almacén de clave-valor Workers KV.

"Lamentamos profundamente el impacto que esta interrupción/interrupción del servicio ha tenido en todos nuestros usuarios y sus clientes. Empresas grandes y pequeñas confían sus cargas de trabajo a Google Cloud y haremos lo posible por mejorar", declaró Google.

Mientras aún trabaja en la publicación de un informe completo del incidente, Google reveló hoy la causa raíz del aumento de errores 503 en las solicitudes de API externas durante la interrupción de tres horas de ayer.

Como explicó la compañía hoy, su plataforma de gestión de API de Google Cloud falló debido a datos no válidos, un problema que no se detectó ni solucionó con prontitud debido a la falta de sistemas eficaces de prueba y gestión de errores.

Según nuestro análisis inicial, el problema se produjo debido a una actualización automatizada de cuota no válida en nuestro sistema de gestión de API, distribuida globalmente, lo que provocó el rechazo de solicitudes de API externas. Para recuperarnos, omitimos la comprobación de cuota incorrecta, lo que permitió la recuperación en la mayoría de las regiones en dos horas, añadió la empresa.

Sin embargo, la base de datos de políticas de cuota en us-central1 se sobrecargó, lo que provocó una recuperación mucho más prolongada en esa región. Varios productos experimentaron un impacto residual moderado (por ejemplo, retrasos) hasta una hora después de que se mitigara el problema principal, y un pequeño número se recuperó después.

Servicios de Cloudflare interrumpidos por la interrupción de Google

Tras restaurar con éxito sus propios servicios afectados, Cloudflare también reveló en un análisis posterior que el incidente de ayer no se debió a un incidente de seguridad y que no se perdieron datos.

"La causa de esta interrupción se debió a un fallo en la infraestructura de almacenamiento subyacente que utiliza nuestro servicio Workers KV, una dependencia crítica para muchos productos de Cloudflare y de la que dependen para la configuración, la autenticación y la entrega de recursos en los servicios afectados", declaró Cloudflare.

"Parte de esta infraestructura está respaldada por un proveedor de nube externo, que sufrió una interrupción hoy y afectó directamente la disponibilidad de nuestro servicio KV".

Aunque no se reveló el nombre del proveedor de nube responsable de la interrupción del jueves, un portavoz de Cloudflare informó ayer a BleepingComputer que solo los servicios de Cloudflare que dependen de Google Cloud se vieron afectados.

En respuesta a este incidente, Cloudflare afirma que migrará el almacenamiento central de KV a su propio almacenamiento de objetos R2 para reducir la dependencia externa y evitar problemas similares en el futuro.

Fuente:
BleepingComputer
No tienes permitido ver enlaces. Registrate o Entra a tu cuenta

Google vincula interrupción masiva de la nube a un problema de gestión de API

AXCESS

Junio 14, 2025, 04:47:17 AM