La tecnología global enfrentó una disrupción notable el pasado lunes 20 de octubre debido a una caída masiva de Amazon Web Services (AWS) en su región de US-EAST-1, en Virginia del Norte. Este incidente afectó significativamente a numerosos servicios y aplicaciones en todo el mundo, incluidos Amazon, Alexa, Snapchat, Fortnite, Prime Video, entre otros. El panel de estado de AWS reconoció un «aumento de tasas de error y latencias» y se encuentra trabajando para mitigar el problema, así como identificar su causa raíz.
Los primeros problemas fueron detectados alrededor de las 03:11 ET, lo que rápidamente llevó a un aumento en los reportes de errores en plataformas como DownDetector. Usuarios de diversas regiones confirmaron que servicios como Alexa, asistentes de voz y aplicaciones populares se volvieron intermitentes o completamente inaccesibles. La caída es global, aunque su impacto varía según la región y la dependencia de cada servicio afectado.
AWS ha descrito el incidente como un aumento en los errores y latencias que compromete múltiples servicios en la región US-EAST-1. Esta área es crucial dentro de la infraestructura de Amazon debido a razones de coste, latencia y disponibilidad. Al quedar afectada, el problema se extendió a otras regiones provocando fallos de inicio de sesión y picos de latencia en servicios ubicados incluso en Europa.
Entre los servicios populares afectados se encuentran plataformas de entretenimiento, asistentes de voz y aplicaciones corporativas, mencionando, por ejemplo, a Fortnite, Snapchat, ChatGPT y Prime Video. La alta cuota de mercado de AWS significa que cualquier fallo en sus servicios tiene repercusiones significativas a nivel mundial.
Esta no es la primera vez que US-EAST-1 experimenta problemas importantes. Incidentes similares han ocurrido en 2020, 2021 y más recientemente, lo que ha llevado a empresas a reconsiderar sus arquitecturas para evitar concentrar operaciones críticas en un solo punto de fallo.
En Europa y España, el impacto es desigual; mientras algunos servicios operan con normalidad, otros presentan dificultades para iniciar sesión o manejar contenido. La situación fluctúa a medida que AWS trabaja en redistribuir carga y mitigar el problema.
Empresas dependientes de AWS, como Perplexity, han reconocido públicamente su afectación y están trabajando en soluciones temporales mientras ocurre la normalización. Alexa, al ser un servicio dependiente de la nube, destaca por experimentar una interrupción total en sus funciones básicas.
La computación en la nube, si bien ofrece ventajas en términos de escalabilidad y costes, también presenta riesgos al concentrar tantas capacidades en una sola plataforma, como es el caso de AWS. Expertos recomiendan prácticas como el uso multifuncional de zonas dentro de una región, e incluso el uso de múltiples nubes para mitigar estos riesgos. La experiencia actual destaca la importancia de estar preparados con planes de contingencia en caso de fallos.
La duración de estas caídas dependerá de la causa y el alcance específico del fallo. Históricamente, estas disrupciones han durado varias horas. Mientras tanto, se aconseja a las empresas no realizar cambios arriesgados y comunicarse claramente con los usuarios sobre el estado de los servicios.
A medida que AWS continúa investigando, aún no se ha determinado una causa concreta ni se ha establecido un tiempo estimado para una restauración completa. Esta situación resalta la necesidad de mejorar la resiliencia operativa mediante estrategias como la diversificación de infraestructuras tecnológicas para reducir la dependencia extrema en un solo proveedor de servicios en la nube.
Más información y referencias en Noticias Cloud.