Optimiza la Comunicación en tus Presentaciones con Modelos Multimodales de Amazon Bedrock – Capítulo 3

Amazon Web Services (AWS) avanza en la transformación digital con la introducción de estrategias innovadoras para extraer información de datos multimodales, integrando texto, imágenes y gráficos en una sola experiencia. Recientemente, AWS ha desvelado dos métodos pioneros que prometen redefinir el manejo de presentaciones y documentos visuales.

El primer enfoque, denominado «embed primero, inferir después», utiliza el modelo Amazon Titan Multimodal Embeddings para convertir las diapositivas de una presentación en embeddings vectoriales. Estos son almacenados en una base de datos vectorial y, mediante el sistema Large Language-and-Vision Assistant (LLaVA 1.5-7b), se generan respuestas textuales a las consultas de los usuarios, basándose en la búsqueda de las diapositivas más afines.

Por otro lado, el método «inferir primero, embed después» se centra en generar descripciones textuales de cada diapositiva mediante el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock. Estas descripciones son luego transformadas en embeddings textuales almacenados en una base de datos vectorial. Nuevamente, el modelo Claude 3 Sonnet se utiliza para formular respuestas, fundamentándose en las descripciones más pertinentes recuperadas.

Ambos métodos fueron evaluados usando SlideVQA, un conjunto de datos que permite medir la precisión en preguntas y respuestas visuales sobre documentos. Los resultados indicaron que la precisión no superó el 50%, lo que sugiere margen para mejoras sustanciales.

Desde la perspectiva económica, el análisis de costos propuso una diferencia notable: el método «embed primero, inferir después» representa un costo de $0.00224 por pregunta, mientras que el «inferir primero, embed después» alcanza los $0.02108. Estas cifras reflejan el costo computacional de procesamiento en la nube AWS.

AWS recomienda ajustar los enfoques de acuerdo con las necesidades específicas del dataset y su contenido para optimizar los resultados. Sugiere además la exploración de búsquedas híbridas y el uso de filtros avanzados para mejorar la recuperación de información.

Con el código de ambos métodos disponible en GitHub, AWS invita a los usuarios a experimentar y determinar cuál se adapta mejor a sus objetivos. En el contexto de la rápida evolución tecnológica, AWS se compromete a seguir innovando en la inteligencia artificial generativa para optimizar la extracción y análisis de datos multimodales.

Mariana G.
Mariana G.
Mariana G. es una periodista europea y editora de noticias de actualidad en Madrid, España, y el mundo. Con más de 15 años de experiencia en el campo, se especializa en cubrir eventos de relevancia local e internacional, ofreciendo análisis profundos y reportajes detallados. Su trabajo diario incluye la supervisión de la redacción, la selección de temas de interés, y la edición de artículos para asegurar la máxima calidad informativa. Mariana es conocida por su enfoque riguroso y su capacidad para comunicar noticias complejas de manera clara y accesible para una audiencia diversa.

Más popular

Más artículos como este
Relacionados

EEUU Emite Voto en la ONU en Decisión Clave sobre la Retirada Rusa de Ucrania

La Asamblea General de las Naciones Unidas ha presenciado...

Juez autoriza exclusión de AP por parte de Trump, pero solicita reflexión sobre el veto

El presidente de Estados Unidos, Donald Trump, ha recibido...

Fallece Reinaldo Araujo, aliado de María Corina Machado, en prisión chavista: «Incondicional amigo» de la oposición.

En un preocupante contexto de represión política en Venezuela,...