Optimiza la Comunicación en tus Presentaciones con Modelos Multimodales de Amazon Bedrock – Capítulo 3

Amazon Web Services (AWS) avanza en la transformación digital con la introducción de estrategias innovadoras para extraer información de datos multimodales, integrando texto, imágenes y gráficos en una sola experiencia. Recientemente, AWS ha desvelado dos métodos pioneros que prometen redefinir el manejo de presentaciones y documentos visuales.

El primer enfoque, denominado «embed primero, inferir después», utiliza el modelo Amazon Titan Multimodal Embeddings para convertir las diapositivas de una presentación en embeddings vectoriales. Estos son almacenados en una base de datos vectorial y, mediante el sistema Large Language-and-Vision Assistant (LLaVA 1.5-7b), se generan respuestas textuales a las consultas de los usuarios, basándose en la búsqueda de las diapositivas más afines.

Por otro lado, el método «inferir primero, embed después» se centra en generar descripciones textuales de cada diapositiva mediante el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock. Estas descripciones son luego transformadas en embeddings textuales almacenados en una base de datos vectorial. Nuevamente, el modelo Claude 3 Sonnet se utiliza para formular respuestas, fundamentándose en las descripciones más pertinentes recuperadas.

Ambos métodos fueron evaluados usando SlideVQA, un conjunto de datos que permite medir la precisión en preguntas y respuestas visuales sobre documentos. Los resultados indicaron que la precisión no superó el 50%, lo que sugiere margen para mejoras sustanciales.

Desde la perspectiva económica, el análisis de costos propuso una diferencia notable: el método «embed primero, inferir después» representa un costo de $0.00224 por pregunta, mientras que el «inferir primero, embed después» alcanza los $0.02108. Estas cifras reflejan el costo computacional de procesamiento en la nube AWS.

AWS recomienda ajustar los enfoques de acuerdo con las necesidades específicas del dataset y su contenido para optimizar los resultados. Sugiere además la exploración de búsquedas híbridas y el uso de filtros avanzados para mejorar la recuperación de información.

Con el código de ambos métodos disponible en GitHub, AWS invita a los usuarios a experimentar y determinar cuál se adapta mejor a sus objetivos. En el contexto de la rápida evolución tecnológica, AWS se compromete a seguir innovando en la inteligencia artificial generativa para optimizar la extracción y análisis de datos multimodales.

Mariana G.
Mariana G.
Mariana G. es una periodista europea y editora de noticias de actualidad en Madrid, España, y el mundo. Con más de 15 años de experiencia en el campo, se especializa en cubrir eventos de relevancia local e internacional, ofreciendo análisis profundos y reportajes detallados. Su trabajo diario incluye la supervisión de la redacción, la selección de temas de interés, y la edición de artículos para asegurar la máxima calidad informativa. Mariana es conocida por su enfoque riguroso y su capacidad para comunicar noticias complejas de manera clara y accesible para una audiencia diversa.

Más artículos como este
Relacionados

Flores de Temporada: Un Esplendor de 40,000 Colores para la Ciudad

El Ayuntamiento de Las Rozas ha iniciado una vibrante...

Arrestan a Cofundador de Ben & Jerry’s por Manifestación Antibelicista en el Congreso de EE.UU.

Durante una comparecencia del senador Kennedy en el Congreso...

Tragedia en la M-501: Fallece un joven de 20 años tras ser atropellado cerca de San Martín de Valdeiglesias

Los servicios de emergencias del Summa 112 acudieron rápidamente...

Tragedia en Madrid: Dos Víctimas Mortales en Accidentes de Tráfico en las Últimas 24 Horas

Dos hombres han perdido la vida en las últimas...
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.