Oracle ha lanzado OCI Zettascale10, su innovadora generación de superordenadores de inteligencia artificial en la nube. Estos clústeres, que conectan cientos de miles de GPUs NVIDIA a través de múltiples centros de datos, prometen alcanzar hasta 16 zettaFLOPS de rendimiento teórico. La tecnología subyacente es parte del superclúster Stargate, desarrollado junto con OpenAI en Abilene, Texas.
La clave de este avance tecnológico radica en la arquitectura de red Oracle Acceleron RoCE de baja latencia GPU-GPU, combinada con la infraestructura de IA de NVIDIA. Oracle apunta a una escala masiva, costo/rendimiento competitivo y alta fiabilidad, con el objetivo de optimizar los entrenamientos e inferencias de modelos a gran escala.
OCI Zettascale10 opera con despliegues multigigavatio de potencia informática, alojados en macro-campus diseñados para una densidad extrema. El objetivo es reducir la latencia entre GPUs, crucial para entrenamientos de gran tamaño. Además, el tejido de clúster Oracle Acceleron RoCE garantiza una latencia uniformemente baja y ancho de banda a escala, permitiendo desviar tráfico en caso de congestión o fallos sin reiniciar operaciones.
En colaboración con OpenAI, esta arquitectura se desplegó inicialmente en Texas. Oracle promete un sistema en su nube distribuida, ofreciendo opciones de soberanía de datos y modelos de IA.
El diseño de red de OCI Zettascale10 se define como ancho, poco profundo y resiliente. El sistema integra una NIC de GPU que actúa como mini-switch, conectándose a múltiples planos aislados, lo cual reduce los niveles de red y costos, mientras aumenta la escala.
Este avance marca un paso significativo en la carrera por desarrollar infraestructuras destinadas a la IA a escala gigavatio, donde el tejido de red es tan determinante como las propias GPUs. Oracle apoya su enfoque en macro-campus densos, un diseño de red multiestrato y una nube distribuida, destinados a clientes que requieren meticulosos controles de soberanía sobre sus datos y modelos.
Sin embargo, quedan aspectos por aclarar, como el mix exacto de GPU, las métricas reales de escala y la política de acceso. Oracle aclara que las proyecciones actuales son orientativas.
Si cumple con sus promesas, Zettascale10 promete ser un componente crucial en un mercado donde la disponibilidad de GPUs y el tejido de red son factores críticos. Para los clientes interesados en llevar la inteligencia artificial de la experimentación a un servicio industrializado, la combinación de capacidad, soberanía y precio/rendimiento de Oracle podría ser decisiva.
Más información y referencias en Noticias Cloud.


