Oracle ha marcado un nuevo hito en el ámbito de la infraestructura en la nube al anunciar la disponibilidad general de sus innovadoras instancias bare metal en Oracle Cloud Infrastructure (OCI). Montadas sobre las GPUs más recientes de AMD, las Instinct™ MI355X, estas instancias prometen un avance significativo en capacidad de memoria y rendimiento de ancho de banda. No solo eso, sino que Oracle se erige como el primer hiperescalador que ofrece públicamente la tecnología MI355X, manteniéndose como único proveedor que incluye tanto MI355X como MI300X en su catálogo.
La nueva arquitectura CDNA 4 de la MI355X trae consigo mejoras sustanciales frente a la generación anterior, la MI300X. Cada GPU cuenta ahora con 288 GB de memoria HBM3e, un incremento del 50%, así como un ancho de banda de 8 TB/s, superando a su predecesora en un 51%. Además, ofrece soporte para nuevas precisiones FP4/FP6/FP8, lo que representa una mejora de rendimiento de aproximadamente 2,5 veces en FP8/FP16 respecto a CDNA 3.
En cuestión de recursos de sistema, cada servidor ahora incorpora CPUs AMD EPYC de quinta generación con 128 núcleos, 3 TB de RAM DDR5, y un almacenamiento local ampliado a 61,44 TB, duplicando así la capacidad anterior. Este conjunto se complementa con una red «front-end» de 400 Gbps y racks refrigerados por líquido que permiten escalar hasta 64 GPUs por bastidor. Para el entrenamiento distribuido, la conectividad de clúster alcanza impresionantes 3.200 Gbps.
La instancia BM.GPU.MI355X.8, que ya está disponible para solicitudes en OCI, ofrece ocho aceleradores AMD Instinct™ MI355X, proporcionando una memoria GPU agregada de 2,3 TB. Con un precio competitivo desde 8,60 $/hora, estas instancias están diseñadas para tareas exigentes como el entrenamiento de LLMs, inferencias en tiempo real y aplicaciones de HPC como gemelos digitales y genómica.
Este avance se enmarca en el ecosistema OCI Supercluster Zettascale, capaz de escalar hasta 131.072 GPUs. Se perfila como el mayor «superordenador» de IA en la nube según Oracle, gracias a su red RDMA de alta eficiencia y latencia ultrabaja. Con la MI355X, se espera una mejora significativa en el «time-to-train» y la eficiencia, con un aumento x3 en potencia computacional.
Oracle sigue apostando por un ecosistema abierto con soporte para ROCm™ y frameworks estándar como PyTorch y TensorFlow. Buscarán facilitar la migración de CUDA a ROCm, evitando reescrituras complejas. Clientes como Absci y Seekr ya aprovechan estas innovaciones para acelerar sus plataformas de descubrimiento de fármacos con IA generativa y entrenamiento de modelos avanzados de IA, respectivamente.
Con este lanzamiento, Oracle reafirma su compromiso con la expansión de capacidades en la nube, brindando herramientas poderosas para desarrollos de alta escala y fomentando la adopción de IA industrializada.
Más información y referencias en Noticias Cloud.