Las organizaciones actuales manejan enormes volúmenes de datos que contienen información vital para mejorar sus resultados comerciales. La inteligencia artificial generativa (IA generativa) y los modelos fundacionales (FMs) son herramientas clave para transformar estos datos y mejorar tanto la experiencia del cliente como la productividad de los empleados.
Los modelos fundacionales, entrenados con grandes corpus de datos disponibles en línea, destacan en tareas de comprensión del lenguaje natural, como la generación de textos y la respuesta a preguntas. Sin embargo, pueden cometer errores cuando se enfrentan a preguntas fuera de su entrenamiento. Para mejorar la precisión, se utiliza la técnica de Generación Aumentada por Recuperación (RAG), que proporciona contextos específicos a los modelos.
Este artículo guía sobre la construcción de una aplicación RAG, ideal para empresas, basada en modelos avanzados como Llama3-8B FM y BGE Large EN v1.5, utilizando la plataforma Amazon SageMaker JumpStart. FAISS se emplea como almacén de incrustaciones y LangChain facilita las interacciones y la ejecución de inferencias en SageMaker Studio.
SageMaker JumpStart ofrece una gama de modelos fundacionales preentrenados, accesibles tanto para modelos públicos como propietarios. Llama 3, de Meta, está disponible en dos tamaños, 8B y 70B parámetros, con mejoras significativas en el razonamiento y la generación de código gracias a su arquitectura de transformador solo decodificador y un tokenizador avanzado. BGE Large, de BAAI, potencia la recuperación de información dentro de los grandes modelos de lenguaje mediante tres métodos: recuperación densa, léxica y de múltiples vectores.
RAG combina eficientemente los modelos fundacionales con fuentes de conocimiento externas en tres pasos: recuperación, augmentación y generación. Primero, se recupera contenido relevante según la consulta del usuario. Luego, se combina esta información con la entrada original para crear un prompt aumentado. Finalmente, el FM genera una respuesta contextualizada, incorporando el conocimiento recuperado.
La implementación de RAG implica tres pasos: despliegue de modelos, procesamiento y vectorización de datos, y ejecución de inferencias. Un cuaderno de muestra en GitHub, impulsado por una instancia ml.t3.medium, demuestra cómo desplegar el modelo como un punto final de API utilizando el SDK de SageMaker JumpStart. Este despliegue permite experimentar con técnicas avanzadas de aplicación RAG y optimizar la recuperación de información utilizando FAISS y LangChain.
En resumen, se detalló cómo usar SageMaker JumpStart para desplegar el modelo Llama 3 8B Instruct y BGE Large En v1.5, creando un almacén de vectores robusto y generando respuestas contextuales precisas. Esta guía no solo mejora el almacenamiento y recuperación de documentos relevantes, sino que también asegura que las respuestas sean contextualizadas y presentadas de manera fácil de entender para los usuarios.