NVIDIA y OpenAI han dado un giro significativo al mundo de la inteligencia artificial con el lanzamiento de los modelos gpt-oss-20b y gpt-oss-120b. Estos modelos, de código abierto, están optimizados para la arquitectura Blackwell y son capaces de gestionar un impresionante volumen de 1,5 millones de tokens por segundo en el sistema NVIDIA GB200 NVL72, lo que equivale a atender a unos 50.000 usuarios simultáneamente.
Estos modelos están diseñados para el razonamiento textual, incorporando capacidades avanzadas como chain-of-thought y llamadas a herramientas. Además, se basan en una arquitectura Mixture of Experts (MoE) con activaciones SwigGLU, utilizando capas de atención mejoradas con RoPE para manejar contextos de hasta 128.000 tokens.
Ambas versiones, disponibles en precisión FP4, permiten ejecutar incluso el modelo de 120B parámetros en una única GPU de centro de datos que disponga de 80 GB de memoria, maximizando así las capacidades de Blackwell. Esta flexibilidad resalta uno de los objetivos principales: democratizar el acceso a la IA de alto rendimiento.
El extenso entrenamiento del gpt-oss-120b requirió más de 2,1 millones de horas en GPUs NVIDIA H100 Tensor Core. Para optimizar el rendimiento, NVIDIA colaboró con plataformas como Hugging Face Transformers, Ollama, y su propia TensorRT-LLM, integrando mejoras en núcleos de atención y preprocesamiento.
Las optimizaciones específicas incluyen el uso de TensorRT-LLM Gen para baja latencia, kernels CUTLASS MoE para Blackwell, y la librería FlashInfer para maximizar la eficiencia en modelos de lenguaje masivos.
En cuanto al despliegue, los nuevos modelos ofrecen una flexibilidad sin precedentes. En centros de datos, herramientas como vLLM y TensorRT-LLM facilitan la implementación. Para infraestructuras empresariales, NVIDIA Dynamo mejora la interactividad con modelos de largo alcance. Y a nivel local, el gpt-oss-20b puede ejecutarse en PCs con GPUs NVIDIA GeForce RTX.
El sistema GB200 NVL72, con 72 GPUs Blackwell y tecnología de enlace NVLink de quinta generación, permite alcanzar niveles de rendimiento inigualables, consolidando la capacidad de la plataforma para ofrecer modelos de última generación desde su lanzamiento.
Este avance en la tecnología de AI subraya el compromiso de NVIDIA y OpenAI por hacer accesible la inteligencia artificial de alto rendimiento, proporcionando un ecosistema que combina hardware, software y soporte logístico para desarrolladores en todos los niveles.
Más información y referencias en Noticias Cloud.