Optimización de Modelos LLMs: Uniendo Fuerzas con Decodificación Especulativa y AWS Inferentia2 para Rendimiento Superior

En los últimos años, el tamaño de los modelos de lenguaje de grandes dimensiones (LLMs) ha experimentado un crecimiento notable, impulsado por la búsqueda de soluciones avanzadas para tareas de procesamiento del lenguaje natural (NLP). Estas tareas incluyen, entre otras, la respuesta a preguntas y la creación de resúmenes de texto. La tendencia ha demostrado que los modelos más grandes, con parámetros en el orden de cientos de miles de millones, tienden a generar resultados superiores. Por ejemplo, el modelo Llama-3-70B supera en métricas de comprensión de lectura a su versión más pequeña de 8 mil millones de parámetros, con una puntuación de 85.6 frente a 76.4 en la métrica SQuAD.

No obstante, el despliegue de estos modelos más grandes conlleva un mayor costo computacional y de operación. En plataformas como AWS Trainium, Llama-3-70B presenta una latencia mediana por token de 21.4 ms, significativamente mayor comparada con los 4.7 ms de Llama-3-8B. Similarmente, Llama-2-70B registra 20.6 ms por token, mientras que Llama-2-7B, solo 3.7 ms. Esta diferencia en rendimiento obliga a los clientes a balancear entre costo y eficiencia para satisfacer la demanda de sus usuarios.

Una solución emergente para abordar este desafío es la decodificación especulativa, que se está implementando en AWS Inferentia2 y Trainium. Esta técnica mejora la eficiencia del cómputo necesario para la inferencia de modelos de lenguaje grande, optimizando la latencia de salida de token (TPOT).

El trabajo de los modelos de lenguaje modernos se estructura alrededor de la arquitectura transformer. Las instrucciones de entrada son procesadas primero a través de codificación de contexto, una técnica rápida y paralelizable. Sin embargo, la generación de tokens se realiza de manera autorregresiva, es decir, secuencialmente, lo que incrementa el tiempo necesario para la producción de cada token a medida que el tamaño del modelo crece.

Desde un punto de vista computacional, la generación de tokens en los LLMs se topa con una barrera fundamental: el ancho de banda de la memoria. Los modelos más grandes sufren transferencias de memoria que conducen a una subutilización de las unidades de cálculo y de las operaciones de punto flotante disponibles (FLOPS).

Aquí es donde entra en juego el muestreo especulativo. Esta técnica permite mantener la precisión mientras se incrementa la eficiencia computacional. Funciona utilizando un modelo más pequeño y rápido para generar múltiples tokens que luego son verificados por el modelo objetivo, más grande y lento. Este modelo objetivo procesa múltiples tokens en una sola pasada en lugar de hacerlo secuencialmente, lo que potencia la eficiencia. Incrementar la cantidad de tokens procesados en paralelo se traduce en una mayor intensidad de cálculo y mejor rendimiento en comparación con la ejecución no especulativa.

El procedimiento especulativo implica el uso de una ventana ajustable k. Aquí, el modelo objetivo genera un token garantizado correcto, mientras el modelo más pequeño especula sobre los próximos k-1 tokens. Si estos tokens son aceptados, el proceso es más rápido; si no, el modelo objetivo interviene para garantizar la precisión.

Por ejemplo, en un caso ideal donde todos los tokens especulados son aceptados, el proceso es significativamente más rápido. El modelo objetivo entrega un token correcto y el modelo especulativo genera una secuencia de posibles tokens que, tras ser verificados y aceptados por el modelo objetivo, se confirman como válidos.

AWS ha demostrado la funcionalidad del muestreo especulativo en sus instancias EC2 Inf2, apoyadas por Inferentia2, y en las instancias EC2 Trn1, respaldadas por Trainium. Utilizando Llama-2-70B y Llama-2-7B como modelo objetivo y modelo de borrador respectivamente, se ha logrado acelerar la generación de texto. Aunque estos ejemplos se basan en la serie Llama-2, el mismo proceso es aplicable a los modelos Llama-3.

Las cargas de trabajo con modelos Llama-2 usando bfloat16 pueden ser manejadas a través del ajuste del parámetro n_positions, que determina la longitud máxima de la secuencia generada. En el caso de muestreo especulativo, sólo se permite batch_size de 1. Estos modelos combinados requieren cerca de 200 GB de memoria del dispositivo para almacenar los pesos y adicionales gigabytes para los cachés de clave-valor (KV).

Para los desarrolladores, la decisión entre modelos más grandes y costosos versus modelos más pequeños y económicos ya no tiene que ser un dilema. Con los avances en chips de inteligencia artificial de AWS y el muestreo especulativo, es posible combinar la alta calidad de los modelos grandes con la velocidad de los pequeños.

Finalmente, se invita a probar esta técnica ajustando las entradas y parámetros del prompt para observar los resultados obtenidos. La documentación de AWS Neuron y el canal de AWS Neuron en repost.aws ofrecen una base invaluable para aquellos interesados en explorar y compartir sus hallazgos con la comunidad.

Silvia Pastor
Silvia Pastor
Silvia Pastor es una destacada periodista de Noticias.Madrid, especializada en periodismo de investigación. Su labor diaria incluye la cobertura de eventos importantes en la capital, la redacción de artículos de actualidad y la producción de segmentos audiovisuales. Silvia realiza entrevistas a figuras clave, proporciona análisis expertos y mantiene una presencia activa en redes sociales, compartiendo sus artículos y ofreciendo actualizaciones en tiempo real. Su enfoque profesional, centrado en la veracidad, objetividad y ética periodística, la convierte en una fuente confiable de información para su audiencia.

Más popular

Más artículos como este
Relacionados

Metamorfosis de una Cocina Compacta: De Espacio Limitado a Oasis Interior Luminoso

En un llamativo ejemplo de innovación arquitectónica, una pequeña...

La EMT incorpora conexión directa al Mutua Madrid Open con la línea 180

La línea de autobuses 180 de EMT Madrid ha...

Alejandra Ron Pedrique: Innovando el Emprendimiento Sostenible en las Ondas Españolas

En el dinámico universo del emprendimiento español, Alejandra Ron...

Liderazgo Estratégico y Psicología: Transformaciones Empresariales con Rubén Fornell

Rubén Fornell se perfila como un innovador líder empresarial...
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.