Microsoft 365: Información sobre la interrupción masiva de esta semana

Dragora · Enero 28, 2023, 12:19:30 AM

Microsoft dice que la interrupción mundial de Microsoft 365 de cinco horas de duración de esta semana fue causada por un cambio de dirección IP del enrutador que provocó problemas de reenvío de paquetes entre todos los demás enrutadores en su red de área amplia (WAN).

Redmond dijo en ese momento que la interrupción se debió a problemas de configuración de red de DNS y WAN causados por una actualización de WAN y que los usuarios de todas las regiones atendidas por la infraestructura afectada tenían problemas para acceder a los servicios de Microsoft 365 afectados.

El problema provocó un impacto en el servicio en oleadas, con un pico aproximadamente cada 30 minutos según se comparte en la página de estado del servicio de Microsoft Azure (esta página de estado también se vio afectada porque mostraba de forma intermitente los errores "504 Gateway Time-out").

La lista de servicios afectados por la interrupción incluía Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive for Business, PowerBi, Microsoft 365 Admin Center, Microsoft Graph, Microsoft Intune, Microsoft Defender para aplicaciones en la nube y Microsoft Defender para identidad.

En total, Redmond tardó más de cinco horas en solucionar el problema, desde las 7:05 a. m. UTC cuando comenzó a investigar hasta las 12:43 p. m. UTC cuando se restableció el servicio.

"Entre las 07:05 UTC y las 12:43 UTC del 25 de enero de 2023, los clientes experimentaron problemas con la conectividad de la red, lo que se manifestó como una latencia prolongada de la red y/o tiempos de espera al intentar conectarse a los recursos alojados en las regiones de Azure, así como a otros servicios de Microsoft, incluidos Microsoft 365 y Power Platform", dijo Microsoft en un informe preliminar posterior al incidente publicado hoy.

"Si bien la mayoría de las regiones y servicios se recuperaron a las 09:00 UTC, los problemas de pérdida de paquetes intermitentes se mitigaron por completo a las 12:43 UTC. Este incidente también afectó a los servicios en la nube de Azure Government que dependían de la nube pública de Azure".

Microsoft ahora también reveló que el problema se desencadenó al cambiar la dirección IP de un enrutador WAN usando un comando que no había sido examinado a fondo y que tiene diferentes comportamientos en diferentes dispositivos de red.

"Como parte de un cambio planificado para actualizar la dirección IP en un enrutador WAN, un comando dado al enrutador hizo que enviara mensajes a todos los demás enrutadores en la WAN, lo que resultó en que todos ellos recalcularan sus tablas de adyacencia y reenvío". Microsoft dijo.

"Durante este proceso de recálculo, los enrutadores no pudieron reenviar correctamente los paquetes que los atravesaban".

Si bien la red comenzó a recuperarse por sí sola a partir de las 08:10 UTC, los sistemas automatizados responsables de mantener la salud de la red de área amplia (WAN) se detuvieron debido al impacto en la red.

Estos sistemas incluían aquellos para identificar y eliminar dispositivos en mal estado, así como sistemas de ingeniería de tráfico para optimizar el flujo de datos a través de la red.

Como resultado de la pausa, algunas rutas de red continuaron experimentando una mayor pérdida de paquetes desde las 9:35 UTC hasta que los sistemas se reiniciaron manualmente, devolviendo la WAN a las condiciones operativas óptimas y completando el proceso de recuperación a las 12:43 UTC.

Después de este incidente, Microsoft dice que ahora está bloqueando la ejecución de comandos de alto impacto y que también requerirá que la ejecución de todos los comandos siga las pautas para cambios de configuración seguros.

Fuente: No tienes permitido ver los links. Registrarse o Entrar a mi cuenta

Microsoft 365: Información sobre la interrupción masiva de esta semana

Dragora

Enero 28, 2023, 12:19:30 AM