En un avance notable en inteligencia artificial, el Instituto de Ciencia de Tokio ha finalizado con éxito el desarrollo de Llama 3.3 Swallow, un modelo de lenguaje con 70 mil millones de parámetros enfocado en el procesamiento del japonés. Liderada por Kazuki Fujii, esta iniciativa empleó la infraestructura de Amazon SageMaker HyperPod, logrando optimizar el rendimiento en comparación con modelos como GPT-4o-mini.
Fundamentado en la arquitectura de Meta Llama 3.3, este modelo introduce mejoras específicas para el japonés, gracias a la colaboración entre el Laboratorio Okazaki, el Laboratorio Yokota y el Instituto Nacional de Ciencia y Tecnología Industrial Avanzada (AIST). Actualmente, se ofrece en dos versiones a través de Hugging Face, facilitando el acceso a investigadores interesados en sus capacidades.
El proceso de entrenamiento usó el Swallow Corpus Version 2, un conjunto de datos centrado en contenido educativo japonés. Se emplearon 32 instancias EC2 de Amazon con potentes GPUs durante más de 16 días de entrenamiento continuo, asegurando un alto estándar de calidad.
Los resultados demuestran que Llama 3.3 Swallow supera a diversas alternativas en tareas lingüísticas japonesas, destacando especialmente en el Japanese MT-Bench. Esto lo convierte en un referente para aplicaciones prácticas en el idioma.
El modelo está disponible en Hugging Face bajo las licencias de Meta Llama 3.3 y Gemma, promoviendo la innovación en aplicaciones centradas en el japonés. La infraestructura de entrenamiento es eficiente y escalable, combinando recursos de cómputo y monitoreo para un proceso más fluido.
Además, se ha optimizado el uso de recursos y se ha establecido un sistema de monitoreo integral que detecta problemas en tiempo real. Estos desarrollos se planifican liberar como proyectos de código abierto, aportando valiosos recursos a la comunidad investigadora en inteligencia artificial.
Con el éxito de Llama 3.3 Swallow, el equipo busca fortalecer las capacidades del modelo y explorar nuevas aplicaciones en tecnología y comunicación.