Las organizaciones que están a la vanguardia de la inteligencia artificial generativa se encuentran en una búsqueda constante de mecanismos que les permitan evaluar de manera eficaz el rendimiento y la fiabilidad de sus aplicaciones. Durante la reciente conferencia AWS re:Invent 2024, se presentó una innovadora solución que podría transformar esta búsqueda: las capacidades de evaluación de modelos de lenguaje (conocidas como LLM-as-a-judge, LLMaJ) y los procesos de generación aumentada por recuperación (RAG). Originalmente lanzadas en versión previa pública, estas herramientas han sido clave para que los clientes evalúen sus modelos base y aplicaciones de inteligencia artificial generativa.
Ante la creciente demanda de flexibilidad por parte de las organizaciones, que buscaban ir más allá de los modelos de Amazon Bedrock y sus bases de conocimiento, Amazon ha anunciado la disponibilidad general de sus Evaluaciones Bedrock con mejoras significativas que proporcionan una gran agilidad en cualquier entorno operativo.
La novedad más destacada es la funcionalidad «bring your own inference responses» (BYOI) que se integra en las evaluaciones de RAG y modelo, permitiendo que cualquier sistema, sin importar si se ejecuta en Amazon Bedrock, otros proveedores de nube o en instalaciones locales, sea evaluado siempre que los datos se presenten en el formato requerido. Además, se han introducido métricas de citación que analizan parámetros como la precisión y cobertura de citación, aspectos críticos para determinar cómo un sistema RAG maneja la información recuperada.
Las características mejoradas no solo optimizan el rendimiento, sino que también fijan un nuevo estándar de calidad en los portafolios de inteligencia artificial generativa, sin importar el entorno en que se utilicen. Ahora, las evaluaciones se amplían para incluir salidas de sistemas RAG alojados en cualquier plataforma mediante el entorno versátil de evaluación de Amazon Bedrock. Gracias a BYOI, se pueden evaluar resultados provenientes de otras fuentes, incluyendo proveedores diversos de modelos base y sistemas RAG personalizados, ampliando así el abanico de posibilidades de evaluación.
Asimismo, se actualizó el formato de entrada para la evaluación, integrando identificadores de base de conocimiento y metadatos adicionales, lo cual facilita un análisis exhaustivo de las citaciones que efectúa un sistema RAG. Esta capacidad es crucial para detectar citaciones innecesarias o irrelevantes, ayudando a refinar la precisión de las salidas.
La evaluación mejorada no solo permite comparaciones entre distintas implementaciones, sino que también incentiva la toma de decisiones fundamentadas en datos concretos. Esto representa una ventaja significativa para las empresas que buscan implementar flujos de trabajo de evaluación continuos, con el objetivo de perfeccionar sus modelos y sistemas RAG, asegurando la entrega de resultados de alta calidad en aplicaciones específicas.
Con estas innovaciones, Amazon Bedrock se posiciona como una herramienta esencial para las organizaciones que aspiran a liderar el avance en inteligencia artificial, ofreciendo un marco robusto para la evaluación continua y mejora de sus modelos. La industria espera que estas nuevas capacidades impulsen a las empresas a adoptar una mentalidad más crítica y proactiva en cuanto a la optimización continua de sus sistemas de inteligencia artificial generativa.