Optimización de Modelos LLMs: Uniendo Fuerzas con Decodificación Especulativa y AWS Inferentia2 para Rendimiento Superior

En los últimos años, el tamaño de los modelos de lenguaje de grandes dimensiones (LLMs) ha experimentado un crecimiento notable, impulsado por la búsqueda de soluciones avanzadas para tareas de procesamiento del lenguaje natural (NLP). Estas tareas incluyen, entre otras, la respuesta a preguntas y la creación de resúmenes de texto. La tendencia ha demostrado que los modelos más grandes, con parámetros en el orden de cientos de miles de millones, tienden a generar resultados superiores. Por ejemplo, el modelo Llama-3-70B supera en métricas de comprensión de lectura a su versión más pequeña de 8 mil millones de parámetros, con una puntuación de 85.6 frente a 76.4 en la métrica SQuAD.

No obstante, el despliegue de estos modelos más grandes conlleva un mayor costo computacional y de operación. En plataformas como AWS Trainium, Llama-3-70B presenta una latencia mediana por token de 21.4 ms, significativamente mayor comparada con los 4.7 ms de Llama-3-8B. Similarmente, Llama-2-70B registra 20.6 ms por token, mientras que Llama-2-7B, solo 3.7 ms. Esta diferencia en rendimiento obliga a los clientes a balancear entre costo y eficiencia para satisfacer la demanda de sus usuarios.

Una solución emergente para abordar este desafío es la decodificación especulativa, que se está implementando en AWS Inferentia2 y Trainium. Esta técnica mejora la eficiencia del cómputo necesario para la inferencia de modelos de lenguaje grande, optimizando la latencia de salida de token (TPOT).

El trabajo de los modelos de lenguaje modernos se estructura alrededor de la arquitectura transformer. Las instrucciones de entrada son procesadas primero a través de codificación de contexto, una técnica rápida y paralelizable. Sin embargo, la generación de tokens se realiza de manera autorregresiva, es decir, secuencialmente, lo que incrementa el tiempo necesario para la producción de cada token a medida que el tamaño del modelo crece.

Desde un punto de vista computacional, la generación de tokens en los LLMs se topa con una barrera fundamental: el ancho de banda de la memoria. Los modelos más grandes sufren transferencias de memoria que conducen a una subutilización de las unidades de cálculo y de las operaciones de punto flotante disponibles (FLOPS).

Aquí es donde entra en juego el muestreo especulativo. Esta técnica permite mantener la precisión mientras se incrementa la eficiencia computacional. Funciona utilizando un modelo más pequeño y rápido para generar múltiples tokens que luego son verificados por el modelo objetivo, más grande y lento. Este modelo objetivo procesa múltiples tokens en una sola pasada en lugar de hacerlo secuencialmente, lo que potencia la eficiencia. Incrementar la cantidad de tokens procesados en paralelo se traduce en una mayor intensidad de cálculo y mejor rendimiento en comparación con la ejecución no especulativa.

El procedimiento especulativo implica el uso de una ventana ajustable k. Aquí, el modelo objetivo genera un token garantizado correcto, mientras el modelo más pequeño especula sobre los próximos k-1 tokens. Si estos tokens son aceptados, el proceso es más rápido; si no, el modelo objetivo interviene para garantizar la precisión.

Por ejemplo, en un caso ideal donde todos los tokens especulados son aceptados, el proceso es significativamente más rápido. El modelo objetivo entrega un token correcto y el modelo especulativo genera una secuencia de posibles tokens que, tras ser verificados y aceptados por el modelo objetivo, se confirman como válidos.

AWS ha demostrado la funcionalidad del muestreo especulativo en sus instancias EC2 Inf2, apoyadas por Inferentia2, y en las instancias EC2 Trn1, respaldadas por Trainium. Utilizando Llama-2-70B y Llama-2-7B como modelo objetivo y modelo de borrador respectivamente, se ha logrado acelerar la generación de texto. Aunque estos ejemplos se basan en la serie Llama-2, el mismo proceso es aplicable a los modelos Llama-3.

Las cargas de trabajo con modelos Llama-2 usando bfloat16 pueden ser manejadas a través del ajuste del parámetro n_positions, que determina la longitud máxima de la secuencia generada. En el caso de muestreo especulativo, sólo se permite batch_size de 1. Estos modelos combinados requieren cerca de 200 GB de memoria del dispositivo para almacenar los pesos y adicionales gigabytes para los cachés de clave-valor (KV).

Para los desarrolladores, la decisión entre modelos más grandes y costosos versus modelos más pequeños y económicos ya no tiene que ser un dilema. Con los avances en chips de inteligencia artificial de AWS y el muestreo especulativo, es posible combinar la alta calidad de los modelos grandes con la velocidad de los pequeños.

Finalmente, se invita a probar esta técnica ajustando las entradas y parámetros del prompt para observar los resultados obtenidos. La documentación de AWS Neuron y el canal de AWS Neuron en repost.aws ofrecen una base invaluable para aquellos interesados en explorar y compartir sus hallazgos con la comunidad.

Artículo anterior

Descubre el Secreto Definitivo para una Cosecha de Arándanos Abundante y Saludable

Artículo siguiente

Mario Picazo Anuncia la Llegada de una Vaguada que Afectará el Clima en Esta Región de España

Optimización de Modelos LLMs: Uniendo Fuerzas con Decodificación Especulativa y AWS Inferentia2 para Rendimiento Superior

Tormentas de granizo en Barcelona dañan avión, obligando a un regreso inesperado al aeropuerto

Juanma Moreno Intensifica la Confrontación sin Abandonar los Pactos con el Gobierno

Nuevos Disturbios en Torre Pacheco: Tensiones Aumentan tras Proclamas Antimigratorias en España

MemOS: Transformando el Futuro de los Modelos de Lenguaje con Memoria Persistente

Investigación por Agresión Sexual en un Domicilio Durante los Sanfermines en Pamplona

Más artículos como este
Relacionados

Tormentas de granizo en Barcelona dañan avión, obligando a un regreso inesperado al aeropuerto

Juanma Moreno Intensifica la Confrontación sin Abandonar los Pactos con el Gobierno

Nuevos Disturbios en Torre Pacheco: Tensiones Aumentan tras Proclamas Antimigratorias en España

MemOS: Transformando el Futuro de los Modelos de Lenguaje con Memoria Persistente

Sobre nosotros

Información

Lo último

Tormentas de granizo en Barcelona dañan avión, obligando a un regreso inesperado al aeropuerto

Juanma Moreno Intensifica la Confrontación sin Abandonar los Pactos con el Gobierno

Nuevos Disturbios en Torre Pacheco: Tensiones Aumentan tras Proclamas Antimigratorias en España

Optimización de Modelos LLMs: Uniendo Fuerzas con Decodificación Especulativa y AWS Inferentia2 para Rendimiento Superior

Más artículos como esteRelacionados

Sobre nosotros

Información

Lo último

Más artículos como este
Relacionados