Microsoft ha dado un paso significativo en su búsqueda de mejorar la accesibilidad tecnológica con la presentación de una nueva funcionalidad multimodal para su modelo de lenguaje compacto, Phi Silica. Diseñado para potenciar la accesibilidad y productividad en dispositivos equipados con Copilot+ y procesadores Snapdragon, así como en futuros modelos de Intel y AMD, esta innovación permite al modelo de lenguaje procesar texto e interpretar imágenes, generando descripciones para tecnologías de asistencia como lectores de pantalla.
Esta actualización destaca por su enfoque eficiente, que elimina la necesidad de un modelo de visión dedicado, optimizando así el uso de recursos como el espacio en disco y la memoria. La integración se realiza mediante componentes ya existentes, con la adición de un modesto modelo proyector de apenas 80 millones de parámetros, garantizando un funcionamiento eficaz sin comprometer el rendimiento de otros sistemas.
La capacidad multimodal de Phi Silica permite crear descripciones de imágenes con diferentes niveles de detalle, un avance crucial para personas con discapacidades visuales. Este desarrollo se implementa tanto en la nube como localmente, asegurando que las descripciones sean rápidas y accesibles. En pruebas, un modelo optimizado es capaz de ofrecer descripciones breves en alrededor de cuatro segundos y detalladas en aproximadamente siete segundos.
Para garantizar la calidad de las descripciones generadas, Microsoft ha adoptado metodologías de evaluación que contrastan este nuevo enfoque con modelos de referencia como Florence. Los resultados destacan la precisión y exhaustividad de las descripciones de Phi Silica, lo que amplía su utilidad para quienes dependen de estas soluciones.
Con la funcionalidad en fase de despliegue, se anticipa la incorporación de más idiomas, mejorando aún más la accesibilidad del servicio. Esta evolución refuerza el compromiso de Microsoft de hacer la tecnología más inclusiva, particularmente para aquellos que enfrentan barreras en el uso de las herramientas digitales.