NVIDIA ha presentado su más reciente avance tecnológico en el ámbito de la inteligencia artificial, una herramienta llamada Fugatto que promete revolucionar la forma en que se manipula y genera el sonido. Descrito como la «navaja suiza del sonido», este modelo de IA innovador ofrece a los usuarios la posibilidad de controlar y transformar el audio mediante simples descripciones textuales.
Lejos de ser solo un generador de música o un modulador de voces, Fugatto se destaca por su versatilidad y precisión. Desarrollado bajo el nombre técnico de Foundational Generative Audio Transformer Opus 1, el modelo puede crear mezclas complejas de música, voces y efectos sonoros a partir de indicaciones escritas y archivos de audio existentes. Esto incluye la habilidad de crear melodías originales, modificar el acento o la emoción de una voz, y hasta generar sonidos completamente nuevos.
Ido Zmishlany, productor musical reconocido y cofundador de One Take Audio, una startup parte del programa NVIDIA Inception, no pudo ocultar su entusiasmo al describir a Fugatto. Según Zmishlany, la capacidad de inventar sonidos inéditos en el estudio abre una nueva era en la música, significando un importante hito en la evolución de esta industria.
Además de impactar el mundo musical, Fugatto está diseñado para ser una herramienta valiosa en diversas industrias. En producción musical, permite a compositores experimentar con diferentes estilos e instrumentos, mejorar la calidad de audio y prototipar nuevas canciones rápidamente. En publicidad, ofrece la capacidad de personalizar mensajes mediante voces que se adaptan a la audiencia local. En el campo educativo, facilita el aprendizaje de idiomas gracias a la posibilidad de utilizar voces familiares, y en los videojuegos, ofrece la opción de modificar efectos sonoros dinámicamente durante el juego.
La tecnología detrás de Fugatto es impresionante. Con 2.500 millones de parámetros, el modelo fue entrenado en sistemas NVIDIA DGX con 32 GPUs NVIDIA H100 Tensor Core. La técnica conocida como ComposableART le permite realizar combinaciones creativas incluso para tareas no específicas, como producir voces cantadas de alta calidad a partir de una descripción textual.
El proyecto Fugatto es el resultado de un esfuerzo colaborativo de un año por un equipo internacional de investigadores. Contribuyeron expertos de India, Brasil, China, Jordania y Corea del Sur, quienes emplearon millones de muestras de audio para entrenar al modelo sin necesidad de añadir información adicional.
Rafael Valle, director de investigación aplicada en audio de NVIDIA, subraya que Fugatto significa un avance hacia un futuro donde el aprendizaje multitarea en síntesis y transformación de audio se desarrollará a partir de los datos y la escala del modelo. Este desarrollo simboliza el compromiso constante de NVIDIA con la innovación y su liderazgo en el campo de la inteligencia artificial.
Más allá de las implicaciones tecnológicas, Fugatto es también fuente de inspiración y diversión para sus desarrolladores. Momentos como la creación de música electrónica acompañada de ladridos de perro sincronizados al ritmo destacan la capacidad creativa del modelo y generan expectativas sobre su impacto en el mundo creativo.
En conclusión, con Fugatto, NVIDIA reafirma su posición en la vanguardia tecnológica global, ofreciendo una herramienta que transforma la creación y percepción del sonido, convirtiéndose en un recurso esencial para artistas y creativos de diversas disciplinas alrededor del mundo.