Microsoft ha dado un paso significativo en la infraestructura de inteligencia artificial con la implementación de su primer clúster a gran escala usando NVIDIA GB300 NVL72, destinado a cargas de trabajo de OpenAI. Este clúster, compuesto por más de 4,600 sistemas GB300 NVL72, marca un hito en la supercomputación para la IA, prometiendo acelerar de manera drástica el entrenamiento de modelos. Según la compañía de Redmond, esta innovación permite realizar en semanas lo que antes llevaba meses, y facilita la creación de modelos con cientos de billones de parámetros.
El despliegue no se limita a este clúster. Microsoft planea expandir el uso de las GPUs Blackwell Ultra a través de sus centros de datos globales, con el objetivo de avanzar en el entrenamiento de modelos avanzados y mejorar el rendimiento de la inferencia en producción. Estas mejoras incluyen la capacidad para manejar ventanas de contexto más extensas y agentes más receptivos a gran escala.
Ian Buck, vicepresidente de Hyperscale and High-performance Computing en NVIDIA, destacó que este sistema introduce el primer clúster GB300 de producción a escala mundial, proporcionando a OpenAI la supercomputación necesaria para manejar modelos con múltiples billones de parámetros.
La arquitectura detrás del GB300 es un avance sustancial respecto al modelo anterior, el GB200. Cada rack del nuevo sistema GB300 v6 contiene 72 GPUs Blackwell Ultra y 36 CPUs Grace, interconectados mediante la red de alta velocidad NVIDIA InfiniBand Quantum-X800. Esta combinación reduce los cuellos de botella de memoria y ancho de banda dentro del rack, mejorando significativamente el rendimiento de inferencia y reduciendo las latencias.
Además, Microsoft ha implementado una topología de red no bloqueante fat-tree, lo que permite escalar entrenamientos de modelos ultra-grandes de manera eficiente con miles de GPUs. Esto se logra gracias a tecnologías como NVIDIA SHARP, que ejecutan operaciones colectivas en el switch, duplicando el ancho de banda efectivo y haciendo el entrenamiento e inferencia más eficientes y predecibles.
La introducción del GB300 NVL72 también requiere reconsiderar cada nivel de la infraestructura, desde la refrigeración avanzada hasta nuevos modelos de distribución de energía y pilas de software re-arquitecturadas para maximizar la eficiencia a escala de supercomputación.
Para OpenAI, la disponibilidad de este clúster proporcionará un motor de supercomputación capaz de manejar modelos avanzados con ciclos de entrenamiento más cortos. Para los clientes de Azure, el nuevo estándar en infraestructura de IA promete reducir los tiempos de entrenamiento de meses a semanas, mejorando la capacidad de respuesta y aumentando el contexto en la inferencia a gran escala.
El desarrollo y despliegue de este clúster ha sido posible gracias a años de inversión de Microsoft en infraestructura de IA, permitiéndole adoptar rápidamente la tecnología NVIDIA GB300 NVL72 en producción.
Con esta innovación, Microsoft y NVIDIA no solo refuerzan su posición líder en el mercado de la supercomputación para IA, sino que también establecen un nuevo estándar en la capacidad y eficiencia de modelos de inteligencia artificial a gran escala.
La colaboración entre ambas compañías se presenta como un factor esencial para el avance del sector, abriendo nuevas posibilidades para asistentes multimodales, IA agéntica y sistemas de recomendación, entre otros usos.
Más información y referencias en Noticias Cloud.