En un avance destacado dentro del ámbito de la inteligencia artificial, Amazon ha lanzado su innovador asistente de compras, Rufus, impulsado por inteligencia artificial generativa. Este asistente, diseñado para millones de usuarios, presenta un modelo de lenguaje grande (LLM) personalizado, que demanda una implementación escalable y eficiente.
Los desafíos asociados con su despliegue a gran escala han llevado al equipo de Amazon a desarrollar una solución de inferencia multi-nodo empleando los chips Amazon Trainium y la biblioteca de código abierto vLLM. Estos componentes son cruciales para proporcionar una atención eficiente y de alto rendimiento en la entrega de LLMs.
A medida que Rufus se expandía, también aumentaba la necesidad de distribuir la carga de trabajo en múltiples instancias de aceleradores, ya que un solo chip no podía manejar el modelo completo. Este reto se superó mediante innovaciones en la fragmentación del modelo y su distribución a través de varios nodos utilizando técnicas de paralelismo tensorial.
Para optimizar el rendimiento, se maximizó el uso de recursos de computación y memoria en varios nodos, reduciendo la latencia sin comprometer la calidad. Además, la infraestructura de inferencia multi-nodo se diseñó para fomentar una comunicación rápida entre nodos, asegurando una integración eficiente de los componentes distribuidos.
La arquitectura implementada sigue un modelo de líder/seguidor, en el cual el nodo líder programa las solicitudes y orquesta las tareas, mientras que los nodos seguidores ejecutan los cálculos de manera distribuida. Esta configuración promueve un camino de ejecución coherente y eficiente en todo el sistema.
Gracias a este enfoque, Amazon ha logrado manejar solicitudes a gran escala de manera efectiva. El diseño, que optimiza la colocación de nodos según la topología de red, reduce la latencia y permite a Rufus operar con un modelo mayor, desplegado en decenas de miles de chips Trainium.
Estos desarrollos no solo elevan la experiencia de compra, permitiendo interacciones innovadoras, sino que también consolidan la posición de Amazon en el horizonte de la inteligencia artificial, al ofrecer un servicio de preguntas y respuestas en tiempo real accesible para los clientes.