Las aplicaciones de inteligencia artificial generativa, impulsadas por grandes modelos de lenguaje (LLMs), están ganando terreno en diversos ámbitos, desde bases de conocimientos internas para el apoyo al cliente hasta asistentes de IA conversacionales externos. Estas herramientas utilizan LLMs para responder a consultas en lenguaje natural de manera similar a cómo lo haría un humano. No obstante, la implementación de estos asistentes conlleva un desafío significativo: garantizar que se adhieran a los estándares de calidad y las expectativas del usuario, lo cual requiere un marco robusto de verdad fundamental y evaluación.
La evaluación y la interpretación de métricas en aplicaciones de IA generativa es un aspecto crucial que se aborda en este artículo. En particular, se destaca el uso de FMEval, una suite de evaluación integral ofrecida por Amazon SageMaker Clarify. FMEval proporciona implementaciones estándar de métricas destinadas a evaluar tanto la calidad como la responsabilidad de las respuestas generadas por IA. Para profundizar en FMEval, se puede consultar el blog «Evaluar grandes modelos de lenguaje para calidad y responsabilidad» disponible en el sitio web de AWS.
Este artículo expone las mejores prácticas para trabajar con FMEval en la curación de datos de verdad fundamental y la interpretación de métricas. Los datos de verdad fundamental se refieren a resultados conocidos y verificables que sirven como referencia para medir la eficacia de los sistemas de IA. Al proporcionar una base sólida contra la cual comparar resultados, estos datos permiten una evaluación confiable y determinística de la calidad del sistema. La curación de estos datos y la interpretación de métricas son procesos interrelacionados, y su implementación adecuada es imprescindible para obtener resultados óptimos.
Utilizando un conjunto de datos de referencia (denominado conjunto de datos dorado) compuesto por 10 tríadas de pregunta-respuesta-hecho, se ilustran las mejores prácticas de curación de la verdad fundamental. Estos datos representan una imagen ideal basada en el informe 10Q del segundo trimestre de Amazon de 2023. Este conjunto de datos dorado se utiliza como patrón oro para evaluar distintas configuraciones de flujos de trabajo de IA generativa, como Pipelines anónimos (Pipeline1, Pipeline2 y Pipeline3).
Las respuestas generadas por estos flujos de trabajo se evalúan usando métricas de conocimiento factual y precisión de QA, comparándolas con el conjunto de datos dorado. La clave de los hechos en las tríadas se emplea para la métrica de conocimiento factual, mientras que la clave de la respuesta se usa para la métrica de precisión de QA. Este enfoque permite medir tanto la exactitud factual como la calidad estilística y de concisión de las respuestas.
La metodología RAG (Generación Aumentada por Recuperación) se destaca como una técnica para mejorar la precisión de las respuestas de los LLM. RAG incorpora conocimiento de dominio relevante en la solicitud de un modelo de lenguaje para ofrecer respuestas más precisas. La calidad del flujo de trabajo RAG depende de factores como la fragmentación, indexación y selección de modelos LLM, entre otros. Ajuste en estos componentes puede mejorar significativamente la calidad de las respuestas generadas.
Es fundamental que las decisiones comerciales dependan de una visión integral y detallada de los datos, que cuantifiquen cómo se desempeñará un flujo de trabajo de IA generativa en términos de experiencia del usuario. Esto ayuda a los responsables de negocio a entender los cambios de calidad y a cumplir con normativas legales y de ética en IA, como la ISO42001.
Uno de los esquemas propuestos para la mejora continua de conjuntos de datos dorados es el volante de experimentación de la verdad fundamental. Este modelo implica evaluar las respuestas generadas contra el conjunto de datos dorado utilizando FMEval y revisarlas con un juez, quien puede ser otro LLM o incluso un humano, dependiendo del caso. Esta revisión continua asegura la mejora progresiva del conjunto de datos dorado y, por ende, la elevación de los estándares de calidad.
FMEval proporciona métricas esenciales de conocimiento factual y precisión QA, que son vitales para asegurar que las aplicaciones de IA generativa cumplan con los estándares de calidad esperados. Para una lista completa de métricas implementadas, los interesados pueden consultar los recursos disponibles en el sitio web de AWS.
Este artículo ofrece una visión completa de cómo la curación de la verdad fundamental y la interpretación de métricas pueden mejorar significativamente la calidad de las aplicaciones de IA generativa, permitiendo una toma de decisiones informada y basada en datos.