(https://i.imgur.com/ZZOia5m.png)
El Director de Seguridad y SVP de Ingeniería de GitHub compartió más detalles hoy sobre una serie de interrupciones que afectaron a la plataforma de alojamiento de código la semana pasada.
Si bien estos incidentes tuvieron causas raíz no relacionadas, afectaron a la mayoría de los servicios principales de GitHub del 9 al 11 de mayo, causando fallas generalizadas de conexión y autenticación de bases de datos durante un máximo de diez horas.
"La semana pasada, GitHub experimentó varios incidentes de disponibilidad, tanto de larga duración como de menor duración. Desde entonces, hemos mitigado estos incidentes y todos los sistemas ahora están funcionando normalmente", dijo Hanley.
"Las causas fundamentales de estos incidentes no estaban relacionadas, pero en conjunto, afectaron negativamente los servicios que las organizaciones y los desarrolladores confían en GitHub para ofrecer. Esto no es aceptable ni el estándar al que nos aferramos".
El 9 de mayo, ocho servicios principales se vieron afectados por una interrupción importante causada por un cambio de configuración en el servicio interno de GitHub que sirve datos de Git.
La segunda interrupción, que ocurrió el 10 de mayo, afectó la emisión de tokens de autenticación para GitHub Apps y resultó de una alta carga y la implementación ineficiente de una API responsable de administrar los permisos de GitHub App.
"El 10 de mayo, el clúster de base de datos que sirve tokens de autenticación de GitHub App vio un aumento de 7 veces en la latencia de escritura para los permisos de GitHub App (estado amarillo)", explicó Hanley.
"La tasa de fracaso de estas solicitudes de token de autenticación fue del 8-15% para la mayoría de este incidente, pero alcanzó un máximo del 76% por ciento por un corto tiempo".
La tercera interrupción de GitHub experimentada por los usuarios la semana pasada, el 11 de mayo, se debió a una pérdida de réplicas de lectura después de que un clúster de base de datos que servía datos de Git se bloqueara y activara un mecanismo de conmutación por error automatizado.
(https://i.imgur.com/48CQeYE.png)
Historial de incidentes (GitHub)
"Estamos abordando el bloqueo de la base de datos Git que ha causado más de un incidente en este momento. Este trabajo ya estaba en progreso y continuaremos priorizándolo", dijo Hanley.
"Estamos abordando los problemas de conmutación por error de la base de datos para garantizar que las conmutaciones por error siempre se recuperen completamente sin intervención".
GitHub compartirá información más detallada sobre estas interrupciones y lo que está haciendo para abordar los problemas que las causaron en su Informe de disponibilidad de mayo.
"El informe de mayo incluirá estos incidentes y cualquier detalle adicional que tengamos sobre ellos, junto con una actualización general sobre el progreso hacia el aumento de la disponibilidad de GitHub", dijo Hanley.
GitHub también se vio afectado por múltiples interrupciones en una semana en marzo de 2022, cuando la compañía reveló que los incidentes fueron causados por problemas de contención de recursos en el clúster de base de datos principal de la plataforma.
Otra interrupción importante afectó a GitHub en febrero de 2022, cuando la plataforma estaba inactiva en todo el mundo, impidiendo el acceso al sitio web y bloqueando confirmaciones, clonación o intentos de solicitud de extracción.
Fuente: https://www.bleepingcomputer.com