El pasado 12 de junio, Google Cloud sufrió una de sus interrupciones más significativas en años recientes, afectando a servicios críticos a nivel mundial. El incidente comenzó a las 19:51 (hora española) y se prolongó por al menos tres horas y media, impactando numerosos productos de Google Cloud Platform (GCP) y Google Workspace, incluidos servicios de infraestructura y aplicaciones como correo electrónico y almacenamiento.
La causa del problema fue una actualización automática incorrecta en el sistema de gestión de APIs, que se distribuyó globalmente, provocando el rechazo masivo de peticiones legítimas. Esto generó respuestas de error 503 en servicios como Compute Engine, Cloud Storage, BigQuery, y Gmail, entre otros. Aunque Google detectó rápidamente el error y aplicó una mitigación temporal, la recuperación fue heterogénea, especialmente en la región us-central1 (Iowa), donde los recursos tardaron más en restablecerse debido a la sobrecarga en la base de datos de políticas de cuotas.
Durante el incidente, miles de organizaciones en Europa, Asia y América enfrentaron fallos intermitentes en el acceso a sus servicios. Esto causó problemas de continuidad para los equipos de TI y afectó gravemente a servicios de datos gestionados y productos de inteligencia artificial. Google ha reconocido que el fallo «no debería haber ocurrido» y ha anunciado medidas para evitar futuros incidentes, incluyendo mejoras en la validación y gestión de APIs.
En Europa, los centros de datos de Madrid, Finlandia, París, Berlín, y otras ciudades registraron problemas, afectando a empresas de todos los tamaños, gobiernos y startups. A las 22:49 (hora española), Google confirmó que la mayoría de los servicios estaban recuperados, aunque algunas operaciones en regiones muy afectadas tardaron un poco más en normalizarse.
Este suceso subraya que, a pesar de las ventajas de la nube, ningún proveedor es inmune a fallos graves. Las empresas deben considerar estrategias multicloud, realizar copias de seguridad independientes y tener planes de contingencia robustos para mitigar los efectos de interrupciones similares en el futuro. Google se enfrenta ahora al desafío de restaurar la confianza de sus usuarios, prometiendo un informe técnico detallado que explique el error y las acciones correctivas adoptadas.
Más información y referencias en Noticias Cloud.