Amazon SageMaker HyperPod ha revolucionado la manera en que los usuarios configuran clústeres de entrenamiento e inferencia distribuidos, introduciendo una nueva experiencia que permite esta acción con un solo clic. Este avance busca eliminar los errores comunes en la configuración, proporcionando una solución más simple y eficiente. El sistema cuenta con orquestación mediante Slurm o Amazon Elastic Kubernetes Service (EKS) y ofrece una red segura a través de Amazon Virtual Private Cloud (VPC), además de almacenamiento de alto rendimiento.
La principal ventaja de SageMaker HyperPod es su capacidad de escalar eficientemente tareas como el entrenamiento de inteligencia artificial generativa y la afinación de modelos, utilizando clústeres con cientos o incluso miles de aceleradores de IA. Este sistema monitoriza continuamente los equipos, resolviendo problemas de forma automática para asegurar la recuperación de las cargas de trabajo sin necesidad de intervención manual.
Anteriormente, configurar los recursos de AWS manualmente presentaba numerosos puntos de fallo potenciales, ya que los usuarios debían configurar recursos como VPC y roles de IAM. Sin embargo, con esta nueva experiencia, la creación de clústeres se simplifica al permitir la creación en un solo paso, utilizando valores predeterminados recomendados.
Las nuevas funciones de despliegue en la consola de Amazon SageMaker AI incluyen configuraciones rápidas y personalizadas. La configuración rápida emplea valores predeterminados para grupos de instancias, redes, orquestación y permisos, mientras que la opción personalizada ofrece un control más detallado de los parámetros.
Entre las características de la configuración rápida se incluye la creación automática de un nuevo VPC, subredes y un clúster EKS con la última versión de Kubernetes, así como el almacenamiento de scripts de ciclo de vida en un bucket de S3. Por otra parte, la configuración personalizada permite a los usuarios trabajar con un VPC existente o un grupo de seguridad ya establecido, además de instalar operadores específicos en el clúster de EKS.
Ambos modos ofrecen la opción de añadir nuevos grupos de instancias, desde grupos estándar hasta restringidos, lo que permite a los usuarios elegir entre capacidad bajo demanda o planes flexibles de entrenamiento. SageMaker HyperPod también proporciona herramientas de verificación de salud profunda y la capacidad de personalizar scripts de ciclo de vida, convirtiéndola en una herramienta robusta para entrenar modelos de machine learning a gran escala.
Con esta actualización, Amazon busca facilitar la creación de entornos de entrenamiento personalizados, permitiendo una integración fluida en flujos de trabajo de entrega continua, y satisfacer las diversas necesidades de los usuarios en el ámbito de la inteligencia artificial y el machine learning.