Amazon Web Services (AWS) avanza en la transformación digital con la introducción de estrategias innovadoras para extraer información de datos multimodales, integrando texto, imágenes y gráficos en una sola experiencia. Recientemente, AWS ha desvelado dos métodos pioneros que prometen redefinir el manejo de presentaciones y documentos visuales.
El primer enfoque, denominado «embed primero, inferir después», utiliza el modelo Amazon Titan Multimodal Embeddings para convertir las diapositivas de una presentación en embeddings vectoriales. Estos son almacenados en una base de datos vectorial y, mediante el sistema Large Language-and-Vision Assistant (LLaVA 1.5-7b), se generan respuestas textuales a las consultas de los usuarios, basándose en la búsqueda de las diapositivas más afines.
Por otro lado, el método «inferir primero, embed después» se centra en generar descripciones textuales de cada diapositiva mediante el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock. Estas descripciones son luego transformadas en embeddings textuales almacenados en una base de datos vectorial. Nuevamente, el modelo Claude 3 Sonnet se utiliza para formular respuestas, fundamentándose en las descripciones más pertinentes recuperadas.
Ambos métodos fueron evaluados usando SlideVQA, un conjunto de datos que permite medir la precisión en preguntas y respuestas visuales sobre documentos. Los resultados indicaron que la precisión no superó el 50%, lo que sugiere margen para mejoras sustanciales.
Desde la perspectiva económica, el análisis de costos propuso una diferencia notable: el método «embed primero, inferir después» representa un costo de $0.00224 por pregunta, mientras que el «inferir primero, embed después» alcanza los $0.02108. Estas cifras reflejan el costo computacional de procesamiento en la nube AWS.
AWS recomienda ajustar los enfoques de acuerdo con las necesidades específicas del dataset y su contenido para optimizar los resultados. Sugiere además la exploración de búsquedas híbridas y el uso de filtros avanzados para mejorar la recuperación de información.
Con el código de ambos métodos disponible en GitHub, AWS invita a los usuarios a experimentar y determinar cuál se adapta mejor a sus objetivos. En el contexto de la rápida evolución tecnológica, AWS se compromete a seguir innovando en la inteligencia artificial generativa para optimizar la extracción y análisis de datos multimodales.