Optimización de la Curaduría de Verdades Básicas y la Interpretación de Métricas: Guía Práctica para Evaluar la IA Generativa en Respuestas a Preguntas con FMEval

Las aplicaciones de inteligencia artificial generativa, impulsadas por grandes modelos de lenguaje (LLMs), están ganando terreno en diversos ámbitos, desde bases de conocimientos internas para el apoyo al cliente hasta asistentes de IA conversacionales externos. Estas herramientas utilizan LLMs para responder a consultas en lenguaje natural de manera similar a cómo lo haría un humano. No obstante, la implementación de estos asistentes conlleva un desafío significativo: garantizar que se adhieran a los estándares de calidad y las expectativas del usuario, lo cual requiere un marco robusto de verdad fundamental y evaluación.

La evaluación y la interpretación de métricas en aplicaciones de IA generativa es un aspecto crucial que se aborda en este artículo. En particular, se destaca el uso de FMEval, una suite de evaluación integral ofrecida por Amazon SageMaker Clarify. FMEval proporciona implementaciones estándar de métricas destinadas a evaluar tanto la calidad como la responsabilidad de las respuestas generadas por IA. Para profundizar en FMEval, se puede consultar el blog «Evaluar grandes modelos de lenguaje para calidad y responsabilidad» disponible en el sitio web de AWS.

Este artículo expone las mejores prácticas para trabajar con FMEval en la curación de datos de verdad fundamental y la interpretación de métricas. Los datos de verdad fundamental se refieren a resultados conocidos y verificables que sirven como referencia para medir la eficacia de los sistemas de IA. Al proporcionar una base sólida contra la cual comparar resultados, estos datos permiten una evaluación confiable y determinística de la calidad del sistema. La curación de estos datos y la interpretación de métricas son procesos interrelacionados, y su implementación adecuada es imprescindible para obtener resultados óptimos.

Utilizando un conjunto de datos de referencia (denominado conjunto de datos dorado) compuesto por 10 tríadas de pregunta-respuesta-hecho, se ilustran las mejores prácticas de curación de la verdad fundamental. Estos datos representan una imagen ideal basada en el informe 10Q del segundo trimestre de Amazon de 2023. Este conjunto de datos dorado se utiliza como patrón oro para evaluar distintas configuraciones de flujos de trabajo de IA generativa, como Pipelines anónimos (Pipeline1, Pipeline2 y Pipeline3).

Las respuestas generadas por estos flujos de trabajo se evalúan usando métricas de conocimiento factual y precisión de QA, comparándolas con el conjunto de datos dorado. La clave de los hechos en las tríadas se emplea para la métrica de conocimiento factual, mientras que la clave de la respuesta se usa para la métrica de precisión de QA. Este enfoque permite medir tanto la exactitud factual como la calidad estilística y de concisión de las respuestas.

La metodología RAG (Generación Aumentada por Recuperación) se destaca como una técnica para mejorar la precisión de las respuestas de los LLM. RAG incorpora conocimiento de dominio relevante en la solicitud de un modelo de lenguaje para ofrecer respuestas más precisas. La calidad del flujo de trabajo RAG depende de factores como la fragmentación, indexación y selección de modelos LLM, entre otros. Ajuste en estos componentes puede mejorar significativamente la calidad de las respuestas generadas.

Es fundamental que las decisiones comerciales dependan de una visión integral y detallada de los datos, que cuantifiquen cómo se desempeñará un flujo de trabajo de IA generativa en términos de experiencia del usuario. Esto ayuda a los responsables de negocio a entender los cambios de calidad y a cumplir con normativas legales y de ética en IA, como la ISO42001.

Uno de los esquemas propuestos para la mejora continua de conjuntos de datos dorados es el volante de experimentación de la verdad fundamental. Este modelo implica evaluar las respuestas generadas contra el conjunto de datos dorado utilizando FMEval y revisarlas con un juez, quien puede ser otro LLM o incluso un humano, dependiendo del caso. Esta revisión continua asegura la mejora progresiva del conjunto de datos dorado y, por ende, la elevación de los estándares de calidad.

FMEval proporciona métricas esenciales de conocimiento factual y precisión QA, que son vitales para asegurar que las aplicaciones de IA generativa cumplan con los estándares de calidad esperados. Para una lista completa de métricas implementadas, los interesados pueden consultar los recursos disponibles en el sitio web de AWS.

Este artículo ofrece una visión completa de cómo la curación de la verdad fundamental y la interpretación de métricas pueden mejorar significativamente la calidad de las aplicaciones de IA generativa, permitiendo una toma de decisiones informada y basada en datos.

Mariana G.
Mariana G.
Mariana G. es una periodista europea y editora de noticias de actualidad en Madrid, España, y el mundo. Con más de 15 años de experiencia en el campo, se especializa en cubrir eventos de relevancia local e internacional, ofreciendo análisis profundos y reportajes detallados. Su trabajo diario incluye la supervisión de la redacción, la selección de temas de interés, y la edición de artículos para asegurar la máxima calidad informativa. Mariana es conocida por su enfoque riguroso y su capacidad para comunicar noticias complejas de manera clara y accesible para una audiencia diversa.

Más popular

Más artículos como este
Relacionados

La Comunidad de Madrid da la bienvenida a la XXVIII Gran Feria Medieval de El Álamo

El consejero de Presidencia, Justicia y Administración Local de...

Heroico Rescate de Madre e Hijo Atrapados en la Corriente en Jarandilla de la Vera

Una dotación del parque de bomberos del Servicio Provincial...

Farage y la Derecha Populista Logran un Ajustado Triunfo sobre los Laboristas en el Reino Unido

Con los recientes comicios municipales parciales en el Reino...

Un Dos de Mayo Turbulento: Encuestas Favorables al PP, Polémico Discurso de Ayuso y un PSOE Alejado

En un reciente evento en Madrid, la presidenta regional...
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.