NVIDIA Rompe Récords con Llama 4 Maverick: Supera los 1,000 Tokens por Segundo por Usuario usando Blackwell

NVIDIA ha alcanzado un nuevo hito en el rendimiento de modelos de lenguaje de gran escala (LLM), logrando una velocidad sin precedentes en la inferencia de estos modelos. Un nodo NVIDIA DGX B200, equipado con ocho GPUs Blackwell, ha conseguido superar los 1.000 tokens por segundo por usuario con Llama 4 Maverick, el modelo más grande de la colección Llama 4, que cuenta con 400.000 millones de parámetros. Este logro ha sido verificado de forma independiente por el servicio de benchmarking Artificial Analysis.

Tras este avance, Blackwell se posiciona como la plataforma de hardware óptima para ejecutar Llama 4, optimizando tanto el rendimiento por servidor como la latencia en escenarios de usuario único. En su configuración máxima, el sistema puede alcanzar hasta 72.000 tokens por segundo por servidor.

Este éxito es el resultado de innovaciones arquitectónicas y mejoras profundas en el software. NVIDIA utilizó TensorRT-LLM para afinar cada aspecto de la inferencia, implementando optimizaciones de kernel en CUDA para operaciones críticas. Destacan fusiones de kernel y el uso de Programmatic Dependent Launch (PDL), que elimina tiempos muertos y mejora la utilización del hardware. Además, se emplearon operaciones en formato FP8, aprovechando los Tensor Cores de Blackwell para mantener la precisión con menor coste computacional.

Un componente crucial de este rendimiento es la decodificación especulativa personalizada, basada en la arquitectura EAGLE-3. Esta técnica permite a un modelo rápido generar borradores de texto, que son verificados en paralelo por el modelo principal, multiplicando así la velocidad de inferencia. Se utilizó secuencias de borrador de tres tokens, logrando un factor de aceleración de más de 2x sin sacrificar calidad, gracias a la ejecución del modelo borrador directamente en GPU, reduciendo su sobrecarga del 25 % al 18 %.

Reducir la latencia es esencial para aplicaciones de inteligencia artificial generativa en tiempo real. NVIDIA demuestra que es posible ofrecer una experiencia fluida incluso con modelos masivos, lo que es crucial para asistentes virtuales, copilotos de software y agentes autónomos.

Este avance técnico no solo representa una mejora en rendimiento, sino que establece la base para una nueva generación de agentes de IA, capaces de interactuar instantáneamente con los humanos, desde interfaces conversacionales hasta simulaciones complejas en la nube.

Con este logro, NVIDIA refuerza su liderazgo en infraestructura para inteligencia artificial, marcando el camino hacia una nueva era de rendimiento extremo en IA. La combinación de hardware especializado, técnicas avanzadas de inferencia y optimización a bajo nivel permitirá desplegar modelos más potentes en escenarios críticos y de alta demanda.

Más información y referencias en Noticias Cloud.

Silvia Pastor
Silvia Pastor
Silvia Pastor es una destacada periodista de Noticias.Madrid, especializada en periodismo de investigación. Su labor diaria incluye la cobertura de eventos importantes en la capital, la redacción de artículos de actualidad y la producción de segmentos audiovisuales. Silvia realiza entrevistas a figuras clave, proporciona análisis expertos y mantiene una presencia activa en redes sociales, compartiendo sus artículos y ofreciendo actualizaciones en tiempo real. Su enfoque profesional, centrado en la veracidad, objetividad y ética periodística, la convierte en una fuente confiable de información para su audiencia.

Más artículos como este
Relacionados

El PP acusa al Gobierno de fracaso total con la nueva ley de vivienda

La vicesecretaria de Organización Territorial del PP, Carmen Fúnez,...

Propuestas Innovadoras en Madrid para Combatir el Abandono Escolar y Fomentar la Reintegración Educativa

La Comunidad de Madrid ha dado un paso significativo...

Bezzecchi Triunfa en un Caótico Silverstone: Una Carrera para el Recuerdo

El piloto de Aprilia se llevó la victoria en...

Bezzecchi Brilla y Confirma el Potencial Ganador de Aprilia en el GP del Reino Unido

El Gran Premio de Gran Bretaña en Silverstone fue...
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.