En un mundo cada vez más digitalizado, la inteligencia artificial sigue mostrando su potencial transformador. En particular, los últimos avances en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han abierto camino para la adopción masiva de asistentes virtuales en distintas industrias. Estos están diseñados para optimizar tanto la atención al cliente como la eficiencia de los equipos internos.
Recientes desarrollos en modelos fundacionales multimodales han permitido a los asistentes de chat no solo interpretar texto, sino también generar respuestas a partir de imágenes. A pesar de su impresionante progreso, estos modelos todavía enfrentan la limitación de depender de la información presente en sus conjuntos de datos de entrenamiento. Aquí es donde Amazon Web Services (AWS) entra en juego con una solución innovadora.
AWS ha logrado integrar la tecnología de Amazon Bedrock en la creación de un asistente de chat multimodal que permite la interacción a través de imágenes y texto, basándose en documentos específicos de la empresa. Esta herramienta tiene aplicaciones prometedoras en sectores como el minorista para mejorar las ventas, y en la manufactura para asistir en el mantenimiento y reparación de maquinaria.
El proceso comienza con la creación de una base de datos vectorial utilizando Amazon OpenSearch Service. Posteriormente, el asistente de chat se despliega a través de una plantilla de AWS CloudFormation. Este sistema sigue un flujo estructurado: un usuario sube una imagen y formula una pregunta, que son procesadas por una función de AWS Lambda. La imagen se almacena en Amazon S3 y la función Lambda coordina las llamadas a los modelos de Amazon Bedrock para generar descripciones textuales y convertirlas en vectores, que se utilizan para recuperar datos pertinentes de OpenSearch, generando una respuesta precisa. Tanto la consulta del usuario como la respuesta se almacenan en Amazon DynamoDB, enlazadas mediante el ID de la imagen.
Esta solución representa una oportunidad significativa para sectores que requieren respuestas específicas basadas en datos propios, partiendo de entradas multimodales. Un ejemplo práctico presentado por AWS es en un mercado de automóviles, donde el sistema permite cargar una imagen de un vehículo, formular preguntas y recibir respuestas basadas en una base de datos especializada en listados de autos.
La implementación de esta tecnología no solo mejora la experiencia del usuario al ofrecer respuestas contextualizadas y precisas, sino que también incrementa la eficiencia operativa de las empresas. Además, su capacidad de personalización y escalabilidad ofrece un gran potencial para adaptar el asistente a las necesidades específicas de las empresas, marcando un punto de inflexión en la interacción humano-máquina e impulsando nuevos horizontes en el ámbito digital.