En el vibrante mundo de la tecnología de inteligencia artificial, la lucha entre CPU y GPU ha tomado un giro inesperado. Intel ha logrado que sus procesadores convencionales ejecuten modelos de lenguaje de gran tamaño (LLM) casi al nivel de la famosa GPU NVIDIA A100, un estándar en el ámbito de IA durante años. Este avance no proviene de un chip novedoso, sino de un rediseño a nivel de microkernels.
El éxito radica en el uso de microkernels optimizados para multiplicar matrices dentro de la CPU. Estos utilizan al máximo las instrucciones AVX2 y nuevas configuraciones de datos, permitiendo que modelos cuantizados entre 1 y 2 bits superen en rendimiento hasta 7 veces la inferencia tradicional de 16 bits.
Tradicionalmente, la eficiencia en la inferencia de LLM se alcanzaba con pesos de 16 bits, pero Intel ha innovado con microkernels de 1 y 2 bits. Estos comprimen la información de manera eficiente, y al implementarse en CPUs x86 modernas, reducen el consumo de ancho de banda y memoria sin sacrificar la calidad del modelo.
Una comparativa revela que mientras la GPU NVIDIA A100 alcanza 250 tokens por segundo, los procesadores Intel Core Ultra logran entre 82 y 110 tokens, una diferencia menor de lo esperado considerando el mayor ancho de banda de la GPU.
Intel probó estas innovaciones en tres procesadores de consumo reciente, logrando resultados sorprendentes con modelos reconocidos como Llama3-8B, Falcon3-1B y MobileLLM-1.5B. En el modelo Llama3-8B, la aceleración alcanzó hasta 5,8 veces frente a 16 bits.
El avance se basa en el enfoque “up-convert and compute”, donde los pesos del modelo almacenados en 1 o 2 bits se convierten en enteros de 8 bits durante la inferencia. Estos se procesan con operaciones FMA optimizadas, integrándose mediante librerías en un flujo completo de inferencia.
Este desarrollo no solo acerca el rendimiento de CPU al de GPU, sino que democratiza el acceso a LLM avanzados, permitiendo su ejecución en dispositivos comunes como portátiles, y abriendo posibilidades en escenarios Edge sin depender de la nube.
NVIDIA, que hasta ahora ha dominado el campo de la IA, enfrenta un desafío estratégico. La necesidad de GPU podría reducirse si la inferencia se realiza eficientemente en CPU comunes, reduciendo costos y accesibilidad.
Mirando al futuro, Intel planea expandir estas optimizaciones a CPU y SoC ARM, anticipando mayores avances con próximas arquitecturas como AVX10.2.
En definitiva, Intel ha abierto una nueva era para la inteligencia artificial: la posibilidad de ejecutar modelos complejos desde cualquier dispositivo, democratizando y revolucionando el acceso a la tecnología en nuestra vida cotidiana.
Más información y referencias en Noticias Cloud.