En 2024, Japón inauguró el Generative AI Accelerator Challenge (GENIAC), un ambicioso proyecto liderado por el Ministerio de Economía, Comercio e Industria, enfocado en potenciar la inteligencia artificial generativa. Este programa brinda a las empresas acceso a financiación, asesoramiento y potentes recursos computacionales para desarrollar modelos fundamentales (FM). Amazon Web Services (AWS) fue la nube elegida para la segunda fase de GENIAC, ofreciendo infraestructura y asesoría a 12 organizaciones participantes.
Inicialmente, el reto parecía sencillo: ofrecer acceso a GPUs y chips Trainium con la meta de fomentar la innovación. Sin embargo, AWS encontró que el verdadero desafío iba más allá de contar con más de 1,000 aceleradores, pues el éxito en el entrenamiento de modelos fundamentales dependía de crear un sistema confiable y resolver problemas complejos del entrenamiento distribuido.
Durante la segunda fase, 12 clientes desplegaron con éxito 127 instancias de Amazon EC2 P5 (con GPU NVIDIA H100 TensorCore) y 24 instancias de Amazon EC2 Trn1 (con AWS Trainium) en apenas un día. En los siguientes seis meses, se entrenaron varios modelos a gran escala, destacando proyectos como Stockmark-2-100B-Instruct-beta y Llama 3.1 Shisa V2 405B.
Un aprendizaje crucial fue la necesidad de equipos multidisciplinarios para llevar a cabo iniciativas de aprendizaje automático ambiciosas. AWS formó un equipo virtual integrando cuentas, arquitectos de soluciones y equipos técnicos, lo que promovió un soporte efectivo y el intercambio de conocimientos con los clientes.
La comunicación estructurada resultó vital. Un canal interno en Slack facilitó la resolución rápida de problemas y fomentó un entorno colaborativo donde se intercambiaba información. Documentos de seguimiento detallados ayudaron a clarificar requisitos técnicos, y las reuniones semanales permitieron compartir aprendizajes y mejorar el modelo de participación.
Desarrollar arquitecturas de referencia fue clave. En lugar de permitir configuraciones desde cero, AWS creó plantillas y automatizaciones para dos enfoques: AWS ParallelCluster y SageMaker HyperPod. Estas arquitecturas facilitaron el despliegue de entornos con mínima fricción.
El programa GENIAC ha demostrado que entrenar modelos fundamentales a escala es principalmente un desafío organizativo. Con un soporte estructurado y un enfoque colaborativo, los participantes ejecutaron exitosamente grandes cargas de trabajo en la nube. Al concluir la segunda fase, se realizó un evento técnico en Tokio para preparar a los desarrolladores para la próxima etapa de GENIAC, subrayando un avance significativo en el camino hacia la inteligencia artificial generativa global. AWS continúa comprometido con el desarrollo de estas tecnologías a nivel mundial.