En un movimiento audaz para redefinir el panorama de la inteligencia artificial en Norteamérica, la startup TensorWave ha revelado el despliegue del clúster de entrenamiento de IA más grande basado en GPU AMD hasta la fecha. Con un impresionante conjunto de 8.192 aceleradores Instinct MI325X, esta innovación marca un hito técnico y estratégico en un sector tradicionalmente dominado por NVIDIA.
Un factor distintivo de esta instalación es su sistema de refrigeración líquida directa a chip, un enfoque pionero a esta escala. La compañía ha compartido imágenes del clúster en la red X, mostrando complejos bastidores atravesados por bucles de refrigeración de color naranja brillante. Este sistema ya se encuentra en pleno funcionamiento, ofreciendo capacidades de entrenamiento en la nube bajo demanda.
El AMD Instinct MI325X, lanzado a finales de 2024, destaca por su arquitectura innovadora. Equipado con 256 GB de memoria HBM3e y un ancho de banda de 6 TB/s, cada acelerador alcanza hasta 2,6 PFLOPS de cálculo en FP8, gracias a sus 19.456 núcleos stream. Aunque no puede competir en escala por nodo con NVIDIA, TensorWave apuesta por la eficiencia y densidad térmica por rack.
La infraestructura completa genera más de 2 PB/s de ancho de banda agregado y un rendimiento pico teórico de 21 exaFLOPS en precisión FP8. Sin embargo, el desempeño sostenido dependerá de la eficiencia del paralelismo del modelo y su arquitectura de interconexión.
La implementación de refrigeración líquida es clave para manejar los 1.000 vatios que consume cada GPU, algo imposible de gestionar solo con aire. Esta decisión no solo optimiza la operación actual, sino que también prepara el terreno para futuras actualizaciones con GPUs MI350X, que podrían alcanzar hasta 1.400 vatios de consumo por unidad.
Este avance llega poco después de que TensorWave asegurara una ronda de financiación Serie A de 100 millones de dólares, liderada por AMD Ventures. La elección de AMD sobre NVIDIA no solo responde a razones económicas, sino también a la confianza en la madurez del ecosistema ROCm para entrenamientos a gran escala. Aunque NVIDIA sigue siendo el líder indiscutible del mercado, el éxito de TensorWave establece un precedente para diversificar las opciones disponibles.
De cara al futuro, TensorWave planea integrar las GPUs MI350X en la segunda mitad de 2025 y explorar nuevas precisiones como FP4 y FP6. Con más de 8.000 GPUs AMD ya en funcionamiento bajo cargas reales, la startup se posiciona como un referente para clientes que buscan soluciones alternativas y competitivas. Este proyecto podría influir en otras empresas interesadas en IA sostenible y escalable, sirviendo como ejemplo de innovación y eficiencia en el sector.
Más información y referencias en Noticias Cloud.