En un avance sin precedentes en el campo de la inteligencia artificial, un grupo de investigadores en Japón ha anunciado el lanzamiento de Fugaku-LLM, un modelo de lenguaje a gran escala diseñado específicamente para optimizar las capacidades en el idioma japonés. Utilizando el supercomputador Fugaku, considerado uno de los más potentes del mundo, este desarrollo promete redefinir el panorama de la investigación y las aplicaciones empresariales tanto en Japón como a nivel global.
El equipo detrás de Fugaku-LLM está compuesto por destacados académicos y profesionales, incluyendo al Profesor Rio Yokota del Instituto de Tecnología de Tokio, así como expertos de instituciones como la Universidad de Tohoku, Fujitsu Limited, RIKEN, la Universidad de Nagoya, CyberAgent, Inc., y Kotoba Technologies Inc. Este colectivo ha logrado entrenar un modelo con 13 mil millones de parámetros, superando ampliamente los actuales estándares en Japón, donde predominan modelos de 7 mil millones de parámetros.
La innovación en el entrenamiento de Fugaku-LLM es notable. Los investigadores implementaron métodos de entrenamiento distribuido que incluyen la adaptación del framework de aprendizaje profundo Megatron-DeepSpeed a las especificaciones de Fugaku, optimizando de esta manera el rendimiento de los transformadores. Este avance técnico no solo incluye la aceleración de bibliotecas de multiplicación de matrices densas, sino también la optimización de la comunicación a través de tres tipos diferentes de paralelización.
Fugaku-LLM ha sido sometido a rigurosas pruebas con datos recopilados principalmente por CyberAgent, además de incorporar información en inglés y matemáticas. En estas evaluaciones, alcanzó una puntuación de 9.18 en el MT-Bench japonés, destacándose como el modelo abierto más efectivo entrenado con datos originados en Japón. Además, su código fuente está disponible en GitHub y el modelo puede ser hallado en Hugging Face, abriendo así las puertas para su utilización en investigación y aplicaciones comerciales bajo una licencia específica.
Cada institución participante ha aportado de manera vital al proyecto. Desde la supervisión y optimización de la comunicación liderada por el Instituto de Tecnología de Tokio, hasta el trabajo de aceleración computacional por parte de Fujitsu, y el papel de RIKEN en la paralelización distribuida, cada entidad ha contribuido de forma significativa al éxito de Fugaku-LLM.
La creación de Fugaku-LLM no solamente posiciona a Japón como un líder en inteligencia artificial, sino que también demuestra que es posible entrenar modelos de lenguaje a gran escala utilizando CPUs en lugar de GPUs, una innovación crucial dada la actual escasez mundial de GPUs. Este modelo se vislumbra no solo como una herramienta de vanguardia para la investigación académica, sino también como un catalizador para aplicaciones comerciales innovadoras, que van desde la simulación científica hasta la creación de comunidades virtuales pobladas por miles de inteligencias artificiales.
El lanzamiento de Fugaku-LLM representa un avance monumental en el ámbito de la inteligencia artificial en Japón. No solo evidencia el poder del supercomputador Fugaku, sino también las avanzadas capacidades de los investigadores japoneses, sentando las bases para futuras innovaciones en diversas áreas científicas y comerciales. Con este desarrollo, se marca un hito en la evolución de la tecnología lingüística y se asegura un camino prometedor hacia el futuro.