En un mundo donde los modelos de inteligencia artificial (IA) están alcanzando niveles de complejidad sin precedentes, la infraestructura necesaria para ejecutarlos ha escalado a proporciones colosales. Habitualmente, se requiere de servidores equipados con unidades de procesamiento gráfico (GPUs) de alto rendimiento, como las NVIDIA H100 o A100, cuyo valor puede superar el costo de una vivienda. Sin embargo, un reciente experimento ha propuesto un enfoque menos convencional: utilizar cinco Mac Studios para crear un clúster de IA capaz de ejecutar modelos de lenguaje a gran escala, todo gracias a EXO Labs, un innovador software de computación distribuida.
El desafío consistía en ejecutar Llama 3.1 405B, un modelo de lenguaje con la asombrosa cantidad de 405 mil millones de parámetros. Estos modelos, por lo general, son dominio exclusivo de centros de datos con servidores diseñados específicamente para IA, equipados con redes de alta velocidad y memoria de video especializada. La clave del experimento fue comprobar si una agrupación de cinco Mac Studios, cada uno con chips M2 Ultra y 64 GB de memoria unificada, podría llevar a cabo esta tarea colosal.
Para conectar estos dispositivos y hacerlos trabajar en conjunto, se utilizó EXO Labs, un software de código abierto que distribuye las cargas de trabajo de IA entre múltiples equipos. Inicialmente, se intentó establecer la red de interconexión a través de Ethernet de 10 Gbps usando un switch UniFi XG6 POE. No obstante, pronto se comprobó que esta velocidad era insuficiente para manejar el tráfico de datos, lo cual llevó a adoptar una conexión Thunderbolt 4 de 40 Gbps para mejorar el ancho de banda y reducir la latencia.
Antes de enfrentar el colosal Llama 3.1 405B, el equipo realizó pruebas con modelos de menor tamaño. El Llama 3.21B, con mil millones de parámetros, se ejecutó sin inconvenientes en un solo Mac Studio. Sin embargo, al abordar el modelo de 405 mil millones de parámetros, surgieron complicaciones. A pesar de tener un total de 320 GB de RAM unificada, el clúster enfrentó dificultades debido al uso intensivo de memoria, lo que obligó al sistema a recurrir a la memoria de intercambio, impactando negativamente su rendimiento.
La comunicación entre los nodos también presentó desafíos. Aunque la conexión Thunderbolt 4 mejoró el ancho de banda, la latencia persistía como un problema limitante. En comparación, los centros de datos tradicionales conectan sus GPUs mediante redes InfiniBand de 400 o 800 Gbps, optimizadas específicamente para cargas de trabajo de IA. Además, el software y la arquitectura de los Mac Studios, a pesar de contar con MLX de Apple para aceleración de aprendizaje automático, aún no alcanzan el nivel de optimización de las GPUs NVIDIA con CUDA.
En términos de eficiencia energética y costos, los Mac Studios muestran ventajas significativas. Sin embargo, la falta de memoria VRAM especializada y redes de ultra alta velocidad continúan siendo obstáculos para ejecutar modelos de gran escala con la misma eficiencia que servidores especializados. Este experimento, no obstante, sugiere un nuevo horizonte para la computación distribuida en hardware de consumo. Con futuras mejoras en software como EXO Labs, podría ser una opción más viable para ciertos contextos en el ámbito de la inteligencia artificial.
La innovación reside no solo en la tecnología utilizada, sino en la forma en que desafía las normas establecidas sobre lo que se necesita para avanzar en el campo de la inteligencia artificial contemporánea.