NVIDIA Rompe Récords con Llama 4 Maverick: Supera los 1,000 Tokens por Segundo por Usuario usando Blackwell

NVIDIA ha alcanzado un nuevo hito en el rendimiento de modelos de lenguaje de gran escala (LLM), logrando una velocidad sin precedentes en la inferencia de estos modelos. Un nodo NVIDIA DGX B200, equipado con ocho GPUs Blackwell, ha conseguido superar los 1.000 tokens por segundo por usuario con Llama 4 Maverick, el modelo más grande de la colección Llama 4, que cuenta con 400.000 millones de parámetros. Este logro ha sido verificado de forma independiente por el servicio de benchmarking Artificial Analysis.

Tras este avance, Blackwell se posiciona como la plataforma de hardware óptima para ejecutar Llama 4, optimizando tanto el rendimiento por servidor como la latencia en escenarios de usuario único. En su configuración máxima, el sistema puede alcanzar hasta 72.000 tokens por segundo por servidor.

Este éxito es el resultado de innovaciones arquitectónicas y mejoras profundas en el software. NVIDIA utilizó TensorRT-LLM para afinar cada aspecto de la inferencia, implementando optimizaciones de kernel en CUDA para operaciones críticas. Destacan fusiones de kernel y el uso de Programmatic Dependent Launch (PDL), que elimina tiempos muertos y mejora la utilización del hardware. Además, se emplearon operaciones en formato FP8, aprovechando los Tensor Cores de Blackwell para mantener la precisión con menor coste computacional.

Un componente crucial de este rendimiento es la decodificación especulativa personalizada, basada en la arquitectura EAGLE-3. Esta técnica permite a un modelo rápido generar borradores de texto, que son verificados en paralelo por el modelo principal, multiplicando así la velocidad de inferencia. Se utilizó secuencias de borrador de tres tokens, logrando un factor de aceleración de más de 2x sin sacrificar calidad, gracias a la ejecución del modelo borrador directamente en GPU, reduciendo su sobrecarga del 25 % al 18 %.

Reducir la latencia es esencial para aplicaciones de inteligencia artificial generativa en tiempo real. NVIDIA demuestra que es posible ofrecer una experiencia fluida incluso con modelos masivos, lo que es crucial para asistentes virtuales, copilotos de software y agentes autónomos.

Este avance técnico no solo representa una mejora en rendimiento, sino que establece la base para una nueva generación de agentes de IA, capaces de interactuar instantáneamente con los humanos, desde interfaces conversacionales hasta simulaciones complejas en la nube.

Con este logro, NVIDIA refuerza su liderazgo en infraestructura para inteligencia artificial, marcando el camino hacia una nueva era de rendimiento extremo en IA. La combinación de hardware especializado, técnicas avanzadas de inferencia y optimización a bajo nivel permitirá desplegar modelos más potentes en escenarios críticos y de alta demanda.

Más información y referencias en Noticias Cloud.

Artículo anterior

El PP acusa al Gobierno de fracaso total con la nueva ley de vivienda

Artículo siguiente

Clamor en las Calles: Madrid se Une en Defensa de la Sanidad Pública

NVIDIA Rompe Récords con Llama 4 Maverick: Supera los 1,000 Tokens por Segundo por Usuario usando Blackwell

La UE Aboga por el Diálogo ante Aranceles de Trump, pero Prepara Respuesta Proporcional si No Hay Acuerdo para Agosto

Von der Leyen Advierte: Aranceles del 30% a la UE Generarían una Disrupción Significativa

La Comunidad de Madrid Lanza Programa de Capacitación Digital para Profesionales del Turismo

Seguimiento en Directo: Temporal de Lluvias y Tormentas Azota España

Italia prohíbe la venta en línea del vídeo de la autopsia de Chiara Poggi, víctima de asesinato en 2007

Más artículos como este
Relacionados

La UE Aboga por el Diálogo ante Aranceles de Trump, pero Prepara Respuesta Proporcional si No Hay Acuerdo para Agosto

Von der Leyen Advierte: Aranceles del 30% a la UE Generarían una Disrupción Significativa

La Comunidad de Madrid Lanza Programa de Capacitación Digital para Profesionales del Turismo

Seguimiento en Directo: Temporal de Lluvias y Tormentas Azota España

Sobre nosotros

Información

Lo último

La UE Aboga por el Diálogo ante Aranceles de Trump, pero Prepara Respuesta Proporcional si No Hay Acuerdo para Agosto

Von der Leyen Advierte: Aranceles del 30% a la UE Generarían una Disrupción Significativa

La Comunidad de Madrid Lanza Programa de Capacitación Digital para Profesionales del Turismo

NVIDIA Rompe Récords con Llama 4 Maverick: Supera los 1,000 Tokens por Segundo por Usuario usando Blackwell

Más artículos como esteRelacionados

Sobre nosotros

Información

Lo último

Más artículos como este
Relacionados