El pasado 30 de marzo, Yandex, el gigante tecnológico ruso conocido como «el Google ruso», experimentó una interrupción sin precedentes en su principal centro de datos cerca de Moscú. La interrupción impactó gravemente en Yandex Cloud y otros servicios críticos, marcando un episodio que no se había registrado en los últimos 15 años.
El epicentro del incidente fue una falla simultánea en ambas líneas de suministro de energía de alta tensión de una subestación cercana, que hasta el momento no había tenido problemas desde su inauguración en 1960. A pesar de contar con dos líneas de alimentación independientes, la redundancia planificada no fue suficiente para evitar el apagón, que Yandex describió como un evento con una probabilidad de ocurrencia de una vez cada 20 años.
El apagón ocurrió a las 12:25 (hora local) y obligó a la empresa a activar sus generadores diésel de emergencia y a depender de sistemas de alimentación ininterrumpida diesel-rotativas (DUPS). Esto permitió que algunos servicios críticos continuaran operativos, pero la zona de disponibilidad ru-central1-b de Yandex Cloud quedó inactiva durante horas. El suministro de energía se restableció pasadas las 15:30, y la infraestructura se normalizó gradualmente hasta la medianoche.
Como respuesta a este desafiante evento, Yandex ha anunciado una revisión y posible fortalecimiento de su modelo de resiliencia energética, evaluando la inclusión de un tercer nivel de respaldo con generadores adicionales. Asimismo, aumentará la exigencia de sus ejercicios de recuperación ante desastres y mejorará la automatización en el proceso de arranque de sus sistemas.
El incidente también acentuó la relevancia de las herramientas de resiliencia multizona, como la tecnología «Zonal Shift», que permitió mitigar el impacto redirigiendo cargas a otras zonas disponibles. Esta táctica subraya la necesidad imperiosa de adoptar soluciones multizona para mantener la continuidad de servicios críticos en situaciones de riesgo extremo.
Este apagón sirve como un recordatorio contundente para la industria de infraestructuras críticas sobre la necesidad de una planificación extrema y una gestión transparente. Aunque el incidente se controló adecuadamente, sin pérdidas significativas, se convertirá en un caso de estudio sobre la importancia de la preparación y la innovación en la gestión de incidentes críticos en la era digital.