Amazon Web Services (AWS) ha anunciado recientemente el soporte de sus chips AWS Trainium y AWS Inferentia para el ajuste fino y la inferencia de los modelos Llama 3.1. Estos modelos son una evolución de la familia Llama, abarcando tamaños que van desde los 8 mil millones hasta los 405 mil millones de parámetros.
En una primera aproximación, se explicó cómo desplegar los modelos Llama 3 en las instancias de Amazon SageMaker JumpStart utilizando AWS Trainium e Inferentia. Ahora, la atención se centra en cómo aprovechar al máximo las capacidades de los modelos Llama 3.1 en los nuevos chips de AWS, destacando sus ventajas en términos de eficiencia de costos y rendimiento.
Los modelos Llama 3.1 se caracterizan por ser multilingües y se han optimizado específicamente para el diálogo en múltiples idiomas. Han demostrado su superioridad frente a muchos modelos conversacionales públicos en pruebas industriales, y sus capacidades incluyen búsqueda avanzada, generación de imágenes, ejecución de código y razonamiento matemático. El modelo más destacado, Llama 3.1 405B, se posiciona como el mayor modelo disponible públicamente, siendo ideal para aplicaciones empresariales y de investigación.
Técnicamente, Llama 3 y Llama 3.1 comparten una arquitectura basada en transformadores auto-regresivos, utilizando técnicas avanzadas como el aprendizaje por refuerzo con retroalimentación humana para mejorar su utilidad y seguridad. Estas cualidades hacen de los modelos Llama 3.1 herramientas poderosas para los desarrolladores de inteligencia artificial.
Amazon sugiere utilizar Amazon Bedrock para quienes busquen una API gestionada y de fácil acceso a estos modelos potentes. Alternativamente, para aquellos que requieren un mayor control sobre los recursos, SageMaker brinda soporte completo para el ajuste fino y despliegue de estos modelos. Los chips AWS Trainium e Inferentia2 están diseñados para proporcionar un equilibrio óptimo entre alto rendimiento y costos reducidos en las tareas de entrenamiento e inferencia.
Desarrolladores y científicos de datos que prefieran construir sus propias tuberías de aprendizaje automático pueden iniciar con los modelos Llama 3.1 en las instancias Trn1 e Inf2 de Amazon EC2. La biblioteca NeuronX Distributed ofrece soporte para técnicas populares de entrenamiento e inferencia distribuidos, facilitando el ajuste fino de los modelos.
Para el despliegue, simplemente se debe actualizar el ID del modelo en el código de muestra de Neuron. Esto puede hacerse, por ejemplo, en una instancia inf2.48xlarge. Otra opción es utilizar la biblioteca Optimum Neuron de Hugging Face para desplegar los modelos directamente desde SageMaker, agilizando así el proceso.
En resumen, AWS Trainium e Inferentia se consolidan como opciones destacadas gracias a su alto rendimiento y eficiencia en costos para el ajuste fino y despliegue de los modelos Llama 3.1. Estas herramientas permiten a las empresas y desarrolladores construir aplicaciones de IA avanzadas y diferenciadas, utilizando una infraestructura diseñada específicamente para estos fines. Para más detalles sobre cómo empezar, se puede consultar la documentación de AWS Neuron.
vía: AWS machine learning blog