La adopción de modelos de lenguaje a gran escala (LLMs) ha revolucionado la interacción entre personas y tecnología. Sin embargo, implementar estos modelos a nivel masivo implica enfrentar grandes desafíos, particularmente en términos de latencia, rendimiento y costos durante eventos de alta demanda como el Amazon Prime Day. En este contexto, Rufus, el asistente de compras impulsado por IA de Amazon, se encuentra en el centro de la atención.
Diseñado para asistir a los consumidores en la toma de decisiones de compra, Rufus responde a múltiples consultas sobre productos, enriqueciendo la experiencia del usuario. Para funcionar eficientemente, el sistema emplea un modelo LLM para generar respuestas y un modelo que optimiza la clasificación y recuperación de información. Aquí, la eficiencia es clave, ya que la generación de texto depende de que se completen otras tareas de planificación.
Con el Prime Day de 2024 en la mira, Rufus enfrentó el reto de gestionar millones de consultas por minuto, produciendo miles de millones de tokens en tiempo real mientras respetaba un compromiso de latencia de 300 ms. Esto demandó una revisión fundamental de las implementaciones de LLM, superando los cuellos de botella habituales en costo y rendimiento.
La decodificación paralela emergió como una solución crucial. Este método permitió a Rufus generar múltiples tokens al mismo tiempo, eliminando las ineficiencias del enfoque secuencial tradicional. Durante la jornada de compras, el uso de chips de inteligencia artificial de AWS no solo duplicó la velocidad de generación de texto, sino que también redujo los costos de inferencia en un 50%.
Los resultados fueron significativos: Rufus mostró una capacidad de respuesta rápida que mejoró sustancialmente la experiencia del cliente. La combinación de decodificación paralela junto a las soluciones de AWS permitió manejar el tráfico máximo sin comprometer la calidad de las respuestas.
Este avance revela el potencial de las soluciones de inteligencia artificial para crear experiencias de compra más eficientes. La incorporación del marco Neuronx-Distributed Inference (NxDI) junto con los chips de AWS representa un avance hacia la escalabilidad y viabilidad económica de los LLMs, lo que abre nuevas oportunidades para futuras aplicaciones en el campo de la inteligencia artificial.