Revolución en la Contenerización: Amazon SageMaker HiperPod Integra Soporte Para Amazon EKS

Amazon ha dado un paso significativo en el refuerzo de su infraestructura de inteligencia artificial con el anuncio del soporte de Amazon Elastic Kubernetes Service (Amazon EKS) en Amazon SageMaker HyperPod. Esta nueva capacidad promete ofrecer una mayor resiliencia y eficiencia en el desarrollo y entrenamiento de modelos de machine learning, conocidos como Foundation Models (FM).

Los FMs son complejos y requieren un vasto poder computacional, usualmente distribuidos en clústeres de alta escala con cientos o miles de aceleradores. Durante estos procesos, las fallas de hardware se convierten en un desafío crítico. Un claro ejemplo es el modelo Meta Llama 3 405B, que enfrentó 419 interrupciones inesperadas durante su pre-entrenamiento de 54 días en 16,000 NVIDIA H100 Tensor Core GPUs; el 78% de estas fallas fueron atribuidas a problemas de hardware, destacando la necesidad de soluciones más robustas y resilientes.

SageMaker HyperPod ha sido diseñado específicamente para mitigar estos riesgos. Originalmente utilizado en clústeres de Slurm por empresas como Thomson Reuters, Perplexity AI y Hugging Face, ahora también podrá ser implementado en clústeres de Kubernetes gracias al nuevo soporte de EKS. Este avance significa que los desarrolladores pueden escalar sus entrenamientos y realizar inferencias de FM en ambientes Kubernetes, beneficiándose de las características de resiliencia automatizada de HyperPod.

Startups de inteligencia artificial como Observea y Articul8, así como grandes empresas, ya están aprovechando estas innovaciones. Observea, por ejemplo, reporta que gracias a SageMaker HyperPod han reducido considerablemente el tiempo dedicado a la gestión de infraestructuras y los costos operativos en más del 30%. Articul8 AI, por su parte, señala la integración perfecta con sus actuales procesos de entrenamiento, optimizando la gestión y operación de clústeres de Kubernetes a gran escala, y beneficiando a sus clientes al permitirles ejecutar cargas de trabajo de entrenamiento y ajuste con mayor eficiencia.

Se ha estructurado este anuncio en varias secciones para facilitar la comprensión de sus beneficios y aplicaciones:

  1. Visión general del soporte de Amazon EKS en SageMaker HyperPod: Explica las tres características clave de resiliencia que HyperPod introduce en clústeres de EKS y cómo mejoran la experiencia del desarrollador.

  2. Configuración del clúster HyperPod y características de resiliencia de los nodos: Proporciona una guía detallada sobre cómo integrar HyperPod en un clúster de EKS y aprovechar sus características de resiliencia.

  3. Resiliencia de trabajos de entrenamiento con la funcionalidad de auto-resume: Muestra cómo los trabajos de entrenamiento distribuidos pueden ser gestionados utilizando el CLI de Kubernetes o el nuevo HyperPod CLI, con capacidades de recuperación automática de fallos.

Con este soporte ampliado, las empresas que ya utilizan Kubernetes para sus flujos de trabajo de FM tienen una nueva herramienta para garantizar la estabilidad y eficiencia de sus procesos. SageMaker HyperPod monitoriza automáticamente la salud del clúster y responde a fallos de infraestructura, como fallas de GPU, retomando los entrenamientos desde el último punto guardado. Amazon EKS complementa esto con controles de salud profundos y procesos de revisión exhaustivos para cada nueva instancia, asegurando que cualquier nodo defectuoso sea reemplazado o reiniciado sin necesidad de intervención humana.

Este lanzamiento destaca una evolución significativa en la manera en la que se gestionan y operan clústeres de machine learning a gran escala, reforzando la posición de Amazon como líder en soluciones de inteligencia artificial y computación en la nube.

vía: AWS machine learning blog

Mariana G.
Mariana G.
Mariana G. es una periodista europea y editora de noticias de actualidad en Madrid, España, y el mundo. Con más de 15 años de experiencia en el campo, se especializa en cubrir eventos de relevancia local e internacional, ofreciendo análisis profundos y reportajes detallados. Su trabajo diario incluye la supervisión de la redacción, la selección de temas de interés, y la edición de artículos para asegurar la máxima calidad informativa. Mariana es conocida por su enfoque riguroso y su capacidad para comunicar noticias complejas de manera clara y accesible para una audiencia diversa.

Más popular

Más artículos como este
Relacionados

El Presupuesto del Ayuntamiento de Madrid Crecerá un 5,7% en 2025, Alcanzando los 6.277 Millones de Euros

En un anuncio esperado, el alcalde de Madrid, José...

Amazon Bedrock Introduce la Gestión de Prompts en Disponibilidad General

Amazon ha dado un paso significativo en el ámbito...

Transforma Tu Cocina en Tiempo Récord con Este Innovador Producto de Ikea

En una era donde la personalización del hogar se...