La transformación digital está ganando impulso en el sector de las telecomunicaciones, impulsada por avances significativos en inteligencia artificial (IA). Fastweb, un importante operador de telecomunicaciones en Italia, ha estado a la vanguardia de esta tendencia desde 2019. La empresa ha centrado sus esfuerzos en desarrollar un modelo de lenguaje extenso (LLM) entrenado con datos en italiano, con el objetivo de ofrecer estas capacidades de IA a terceros interesados.
El entrenamiento de los LLM es un proceso altamente demandante en términos de recursos computacionales. Para superar este desafío, Fastweb recurrió a los servicios avanzados de AWS, concretamente a Amazon SageMaker HyperPod. Esta herramienta ofrece la infraestructura para configurar y mantener clusters de computación a gran escala, utilizando tecnologías avanzadas como AWS Trainium y las GPUs de NVIDIA. Gracias a esto, Fastweb pudo crear clusters flexibles que optimizan el uso de los recursos y proveen un control más eficaz de los costos.
Uno de los mayores obstáculos encontrados por Fastweb fue la falta de conjuntos de datos de alta calidad en italiano. Para resolver este problema, la empresa recopiló datos de fuentes públicas y adquirió datos licenciados de editoriales y medios de comunicación. En su primer experimento, aplicaron un ajuste fino al modelo Mistral 7B, uno de los modelos predominantes en el mercado, adaptándolo para manejar tareas como resumir texto, responder preguntas y generar contenido creativo en italiano. El modelo demostró no solo competencia lingüística sino también un entendimiento profundo de la cultura italiana, reflejándose en las respuestas generadas.
La elección de AWS para afinar el modelo no fue casual. AWS proporciona eficiencia en la preparación de datos y permite obtener resultados preliminares valiosos para perfeccionar modelos específicamente diseñados para el italiano. Fastweb utilizó técnicas innovadoras como la traducción de conjuntos de datos del inglés al italiano y generó datos sintéticos para enriquecer su base de datos, mejorando así la calidad y diversidad de sus recursos.
El proceso de ajuste de un modelo como el Mistral 7B requiere una infraestructura significativa, con más de 156 GB de memoria de hardware necesarios. Fastweb implementó técnicas de entrenamiento distribuido usando múltiples GPUs, lo cual permitió un procesamiento paralelo que aceleró significativamente el tiempo de entrenamiento.
El modelo ajustado mostró una mejora del 20% en precisión al tratar tareas en italiano, particularmente en áreas como respuestas a preguntas y razonamiento básico. Fastweb tiene grandes planes para el futuro, contemplando lanzar sus próximos modelos a través de Amazon Bedrock. Esta plataforma les permitirá construir y escalar nuevas soluciones de IA generativa, aportando una agilidad y eficacia crucial en un mercado que avanza rápidamente.
Con Amazon Bedrock, Fastweb no solo espera mejorar su cartera de servicios, sino también liderar la transformación digital en múltiples sectores, fomentando la adopción de soluciones innovadoras impulsadas por IA. Este movimiento subraya su compromiso con la tecnología, la eficiencia en los procesos, y el desarrollo de nuevas oportunidades en un mundo cada vez más digital.