La colaboración entre Arm y Alibaba ha marcado un hito en el ámbito de la inteligencia artificial multimodal en dispositivos móviles. Gracias a la integración del sistema Arm KleidiAI en el marco de aprendizaje profundo MNN, desarrollado por Alibaba, se ha conseguido mejorar en un 57% el procesamiento de tareas de IA multimodal en el borde. Este avance se traduce en experiencias más veloces y eficientes para aplicaciones de chatbots y búsqueda visual en el comercio electrónico.
La creciente presencia de aplicaciones de IA multimodal, que mezclan texto, imágenes, audio y video para ofrecer respuestas más precisas, enfrenta retos significativos debido a las limitaciones de potencia y memoria de los dispositivos móviles. No obstante, KleidiAI aborda estos desafíos ofreciendo optimizaciones que aceleran la inferencia de modelos en CPUs Arm, sin requerir ajustes adicionales por parte de los desarrolladores. Esta tecnología, ya integrada en marcos como ExecuTorch, Llama.cpp, LiteRT y MediaPipe, y ahora en MNN de Alibaba, permite que el modelo Qwen2-VL-2B-Instruct, con 2.000 millones de parámetros, opere eficientemente en dispositivos móviles.
Las mejoras conseguidas incluyen un 57% de mejora en el pre-fill, optimizando el procesamiento de entradas múltiples, y un 28% en la decodificación, reduciendo el tiempo para generar texto. Además, se ha logrado un menor costo computacional, reduciendo el consumo de recursos en dispositivos con hardware limitado. Estas innovaciones crean experiencias de usuario más fluidas en aplicaciones como chatbots, asistentes virtuales y búsquedas de productos mediante imágenes.
La relevancia de estos avances se presentará en el Mobile World Congress 2025, donde Arm y Alibaba exhibirán las capacidades del modelo Qwen2-VL-2B-Instruct ejecutándose en smartphones con el chip MediaTek Dimensity 9400. Esta demo interactiva permitirá a los asistentes ver en tiempo real cómo el modelo interpreta texto e imágenes para generar respuestas.
La integración de KleidiAI en MNN supone un progreso crucial en el desarrollo de IA en el borde, facilitando que modelos complejos operen en dispositivos con potencia limitada. Estas optimizaciones potencializan a millones de desarrolladores, permitiéndoles crear aplicaciones de IA multimodal más eficientes, acercando la inteligencia artificial avanzada a los usuarios móviles y pavimentando el camino hacia la próxima generación de computación inteligente.