Optimización de la Curaduría de Verdades Básicas y la Interpretación de Métricas: Guía Práctica para Evaluar la IA Generativa en Respuestas a Preguntas con FMEval

Las aplicaciones de inteligencia artificial generativa, impulsadas por grandes modelos de lenguaje (LLMs), están ganando terreno en diversos ámbitos, desde bases de conocimientos internas para el apoyo al cliente hasta asistentes de IA conversacionales externos. Estas herramientas utilizan LLMs para responder a consultas en lenguaje natural de manera similar a cómo lo haría un humano. No obstante, la implementación de estos asistentes conlleva un desafío significativo: garantizar que se adhieran a los estándares de calidad y las expectativas del usuario, lo cual requiere un marco robusto de verdad fundamental y evaluación.

La evaluación y la interpretación de métricas en aplicaciones de IA generativa es un aspecto crucial que se aborda en este artículo. En particular, se destaca el uso de FMEval, una suite de evaluación integral ofrecida por Amazon SageMaker Clarify. FMEval proporciona implementaciones estándar de métricas destinadas a evaluar tanto la calidad como la responsabilidad de las respuestas generadas por IA. Para profundizar en FMEval, se puede consultar el blog «Evaluar grandes modelos de lenguaje para calidad y responsabilidad» disponible en el sitio web de AWS.

Este artículo expone las mejores prácticas para trabajar con FMEval en la curación de datos de verdad fundamental y la interpretación de métricas. Los datos de verdad fundamental se refieren a resultados conocidos y verificables que sirven como referencia para medir la eficacia de los sistemas de IA. Al proporcionar una base sólida contra la cual comparar resultados, estos datos permiten una evaluación confiable y determinística de la calidad del sistema. La curación de estos datos y la interpretación de métricas son procesos interrelacionados, y su implementación adecuada es imprescindible para obtener resultados óptimos.

Utilizando un conjunto de datos de referencia (denominado conjunto de datos dorado) compuesto por 10 tríadas de pregunta-respuesta-hecho, se ilustran las mejores prácticas de curación de la verdad fundamental. Estos datos representan una imagen ideal basada en el informe 10Q del segundo trimestre de Amazon de 2023. Este conjunto de datos dorado se utiliza como patrón oro para evaluar distintas configuraciones de flujos de trabajo de IA generativa, como Pipelines anónimos (Pipeline1, Pipeline2 y Pipeline3).

Las respuestas generadas por estos flujos de trabajo se evalúan usando métricas de conocimiento factual y precisión de QA, comparándolas con el conjunto de datos dorado. La clave de los hechos en las tríadas se emplea para la métrica de conocimiento factual, mientras que la clave de la respuesta se usa para la métrica de precisión de QA. Este enfoque permite medir tanto la exactitud factual como la calidad estilística y de concisión de las respuestas.

La metodología RAG (Generación Aumentada por Recuperación) se destaca como una técnica para mejorar la precisión de las respuestas de los LLM. RAG incorpora conocimiento de dominio relevante en la solicitud de un modelo de lenguaje para ofrecer respuestas más precisas. La calidad del flujo de trabajo RAG depende de factores como la fragmentación, indexación y selección de modelos LLM, entre otros. Ajuste en estos componentes puede mejorar significativamente la calidad de las respuestas generadas.

Es fundamental que las decisiones comerciales dependan de una visión integral y detallada de los datos, que cuantifiquen cómo se desempeñará un flujo de trabajo de IA generativa en términos de experiencia del usuario. Esto ayuda a los responsables de negocio a entender los cambios de calidad y a cumplir con normativas legales y de ética en IA, como la ISO42001.

Uno de los esquemas propuestos para la mejora continua de conjuntos de datos dorados es el volante de experimentación de la verdad fundamental. Este modelo implica evaluar las respuestas generadas contra el conjunto de datos dorado utilizando FMEval y revisarlas con un juez, quien puede ser otro LLM o incluso un humano, dependiendo del caso. Esta revisión continua asegura la mejora progresiva del conjunto de datos dorado y, por ende, la elevación de los estándares de calidad.

FMEval proporciona métricas esenciales de conocimiento factual y precisión QA, que son vitales para asegurar que las aplicaciones de IA generativa cumplan con los estándares de calidad esperados. Para una lista completa de métricas implementadas, los interesados pueden consultar los recursos disponibles en el sitio web de AWS.

Este artículo ofrece una visión completa de cómo la curación de la verdad fundamental y la interpretación de métricas pueden mejorar significativamente la calidad de las aplicaciones de IA generativa, permitiendo una toma de decisiones informada y basada en datos.

Mariana G.
Mariana G.
Mariana G. es una periodista europea y editora de noticias de actualidad en Madrid, España, y el mundo. Con más de 15 años de experiencia en el campo, se especializa en cubrir eventos de relevancia local e internacional, ofreciendo análisis profundos y reportajes detallados. Su trabajo diario incluye la supervisión de la redacción, la selección de temas de interés, y la edición de artículos para asegurar la máxima calidad informativa. Mariana es conocida por su enfoque riguroso y su capacidad para comunicar noticias complejas de manera clara y accesible para una audiencia diversa.

Más popular

Más artículos como este
Relacionados

Sabores del Deshielo: Explorando la Cocina Nórdica en Primavera

La cocina nórdica, reconocida por su estética minimalista y...

TSMC Impulsa la Innovación: Aumenta Producción de Chips de 2nm hasta 80,000 Obleas al Mes

TSMC, el notable gigante taiwanés de la industria de...

Máximo Pradera Regresa a la Televisión: Supera el Cáncer de Próstata y Pierde 20 Kilos

Máximo Pradera reapareció este fin de semana en el...