NVIDIA y OpenAI Revolucionan la Inferencia con 1.5 Millones de Tokens por Segundo Usando GPUs Blackwell y Modelos GPT-OSS

NVIDIA y OpenAI han dado un giro significativo al mundo de la inteligencia artificial con el lanzamiento de los modelos gpt-oss-20b y gpt-oss-120b. Estos modelos, de código abierto, están optimizados para la arquitectura Blackwell y son capaces de gestionar un impresionante volumen de 1,5 millones de tokens por segundo en el sistema NVIDIA GB200 NVL72, lo que equivale a atender a unos 50.000 usuarios simultáneamente.

Estos modelos están diseñados para el razonamiento textual, incorporando capacidades avanzadas como chain-of-thought y llamadas a herramientas. Además, se basan en una arquitectura Mixture of Experts (MoE) con activaciones SwigGLU, utilizando capas de atención mejoradas con RoPE para manejar contextos de hasta 128.000 tokens.

Ambas versiones, disponibles en precisión FP4, permiten ejecutar incluso el modelo de 120B parámetros en una única GPU de centro de datos que disponga de 80 GB de memoria, maximizando así las capacidades de Blackwell. Esta flexibilidad resalta uno de los objetivos principales: democratizar el acceso a la IA de alto rendimiento.

El extenso entrenamiento del gpt-oss-120b requirió más de 2,1 millones de horas en GPUs NVIDIA H100 Tensor Core. Para optimizar el rendimiento, NVIDIA colaboró con plataformas como Hugging Face Transformers, Ollama, y su propia TensorRT-LLM, integrando mejoras en núcleos de atención y preprocesamiento.

Las optimizaciones específicas incluyen el uso de TensorRT-LLM Gen para baja latencia, kernels CUTLASS MoE para Blackwell, y la librería FlashInfer para maximizar la eficiencia en modelos de lenguaje masivos.

En cuanto al despliegue, los nuevos modelos ofrecen una flexibilidad sin precedentes. En centros de datos, herramientas como vLLM y TensorRT-LLM facilitan la implementación. Para infraestructuras empresariales, NVIDIA Dynamo mejora la interactividad con modelos de largo alcance. Y a nivel local, el gpt-oss-20b puede ejecutarse en PCs con GPUs NVIDIA GeForce RTX.

El sistema GB200 NVL72, con 72 GPUs Blackwell y tecnología de enlace NVLink de quinta generación, permite alcanzar niveles de rendimiento inigualables, consolidando la capacidad de la plataforma para ofrecer modelos de última generación desde su lanzamiento.

Este avance en la tecnología de AI subraya el compromiso de NVIDIA y OpenAI por hacer accesible la inteligencia artificial de alto rendimiento, proporcionando un ecosistema que combina hardware, software y soporte logístico para desarrolladores en todos los niveles.

Más información y referencias en Noticias Cloud.

Silvia Pastor
Silvia Pastor
Silvia Pastor es una destacada periodista de Noticias.Madrid, especializada en periodismo de investigación. Su labor diaria incluye la cobertura de eventos importantes en la capital, la redacción de artículos de actualidad y la producción de segmentos audiovisuales. Silvia realiza entrevistas a figuras clave, proporciona análisis expertos y mantiene una presencia activa en redes sociales, compartiendo sus artículos y ofreciendo actualizaciones en tiempo real. Su enfoque profesional, centrado en la veracidad, objetividad y ética periodística, la convierte en una fuente confiable de información para su audiencia.

Más artículos como este
Relacionados

Tragedia en Zamora: fallece voluntario en lucha contra incendios forestales

Un trágico accidente ha tenido lugar en el operativo...

Musk y la Rebelión de la IA: El Giro Inesperado en su Duelo contra Apple

El magnate ha arremetido contra Apple, alegando que la...

Bomberos Forestales de Madrid: Resistentes en Tres Cantos a Pesar de la Huelga y La Falta de Respeto

Trabajadores de diversos sectores en la Comunidad han iniciado...

Extradición Masiva: México Envía a 26 Narcos a EE.UU. con Garantía de Vida

El gobierno de Claudia Sheinbaum ha extraditado a 26...
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.