Hoy se ha anunciado con entusiasmo la disponibilidad del nuevo modelo Llama 3.1 405B en Amazon SageMaker JumpStart y en Amazon Bedrock, en su versión preliminar. Los modelos Llama 3.1 representan una colección avanzada de inteligencia artificial generativa, preentrenada y afinada para instrucciones en tamaños que abarcan 8B, 70B y 405B. Amazon SageMaker JumpStart, conocido por proporcionar acceso a algoritmos, modelos y soluciones de aprendizaje automático, facilita a los usuarios un rápido inicio en el uso de la tecnología, mientras que Amazon Bedrock se presenta como una herramienta sencilla para construir y escalar aplicaciones de inteligencia artificial generativa mediante la utilización de modelos Meta Llama a través de una única API.
En este artículo, demostramos cómo utilizar el modelo Llama 3.1 405B para la generación de datos (etiquetas para un conjunto de datos de muestra) y cómo emplear estos datos generados para afinar un modelo más pequeño, como el Llama 3 8B, mejorando sus respuestas en comparación con el modelo no afinado. Asimismo, proporcionamos un cuaderno de código que puede ser utilizado para ejecutar y probar esta solución.
Llama 3.1 representa una serie de modelos de lenguaje grandes, multilingües y optimizados para inferencia, con una destacada capacidad de gestionar longitudes de contexto largas (128,000) y atención de consulta agrupada (GQA). Los modelos afinados para instrucciones textuales están especialmente diseñados para casos de uso en diálogos multilingües, superando en rendimiento a muchos de los modelos de chat disponibles públicamente, según varios benchmarks de la industria.
El modelo Llama 3.1 405B, pionero en su disponibilidad pública, rivaliza con los modelos más avanzados en términos de conocimiento general, capacidad de direccionamiento, matemáticas, uso de herramientas y traducción multilingüe. Además de la inferencia directa, este modelo posee la capacidad de generar datos sintéticos que pueden mejorar modelos más pequeños y servir como base para afinaciones específicas de dominio.
A partir de hoy, los modelos Llama 3.1 están disponibles para inferencia en SageMaker JumpStart y Amazon Bedrock. En SageMaker JumpStart, su implementación se está llevando a cabo en todas las regiones de AWS donde dicha plataforma está disponible, soportando los tipos de instancia requeridos, específicamente instancias P5 para Llama 3.1 405B. En Amazon Bedrock, los modelos se encuentran disponibles en la región us-west-2, con planes para una futura expansión regional.
Para comenzar a utilizar el modelo Llama 3 8B Instruct, se puede realizar la inferencia directamente a través de Amazon Bedrock o mediante un endpoint desplegado utilizando SageMaker JumpStart. Los modelos Llama 3 Instruct, optimizados para diálogos, utilizan el historial previo entre el asistente de chat y el usuario como entrada, permitiendo formular preguntas contextualizadas.
Por ejemplo, en una conversación sobre sitios turísticos en París, el asistente genera varias opciones de recomendación y responde a consultas específicas sobre la Torre Eiffel, destacando su ingeniería, vistas panorámicas, ambiente romántico, e importancia histórica. También probamos la capacidad del modelo para responder preguntas lógicas y aritméticas basadas en el conjunto de datos AQUA-RAT.
En casos donde las respuestas del modelo no fueron precisas, utilizamos el modelo Llama 3.1 405B para generar datos de etiqueta, los cuales luego se emplearon para afinar el modelo Llama 3 8B. Este proceso de afinación incluyó la conversión de datos del conjunto AQUA-RAT, generando respuestas completas utilizando el modelo 405B y creando así un dataset de entrenamiento para mejorar el modelo más pequeño.
Una vez afinado, el modelo Llama 3 8B mostró mejoras significativas en la resolución de problemas lógicos y matemáticos. Este enfoque demuestra cómo el modelo Llama 3.1 405B puede ser utilizado eficientemente para generar datasets y mejorar las capacidades específicas de modelos más pequeños a través de la destilación.
En conclusión, hemos mostrado cómo el modelo Llama 3.1 405B puede ser utilizado para sintetizar y generar etiquetas de datos, mejorando el rendimiento de modelos más pequeños mediante la destilación. Proporcionamos también el cuaderno de código necesario para ejecutar y probar la solución. Animamos a los usuarios a aplicar este método junto con el modelo Llama 3.1 405B en sus propios casos de uso, facilitando la generación de etiquetas o datos no etiquetados y solucionando así necesidades específicas.