Amazon ha lanzado una nueva función de «prompt caching» ampliamente disponible en Amazon Bedrock, una plataforma diseñada para mejorar significativamente la eficiencia de modelos de lenguaje como Claude 3.5 Haiku y Claude 3.7 Sonnet. Con esta innovación, se espera que los tiempos de respuesta se reduzcan hasta en un 85% y los costos operativos disminuyan en un impresionante 90%. La clave de este avance reside en la capacidad de almacenar en caché los «prompts» utilizados frecuentemente a lo largo de múltiples llamadas a la API.
El mecanismo de «prompt caching» permite que los usuarios identifiquen partes específicas de sus solicitudes, llamadas «prompt prefixes», que se almacenan en la memoria caché. Una vez que hay una coincidencia con un «prefix», el modelo puede acceder a esta memoria para evitar el procesamiento repetitivo de los tokens de entrada, resultando en respuestas más rápidas y eficientes, y trasladando los beneficios económicos a los usuarios.
Este avance optimiza la fase de procesamiento de tokens, un paso crucial en el funcionamiento de modelos de lenguaje a gran escala. Mediante puntos de control de caché, los desarrolladores ahora pueden estructurar de manera más efectiva sus «prompts», aumentando las oportunidades de coincidencia y rendimiento.
El uso de «prompt caching» es particularmente beneficioso en aplicaciones que manejan «prompts» prolongados y repetitivos, como asistentes virtuales de chat, desarrolladores de software asistidos por inteligencia artificial, y flujos de trabajo donde la coherencia es esencial. Para maximizar los beneficios, se recomienda que la información estática, como instrucciones y ejemplos, se coloque al inicio de los «prompts», mientras que la información dinámica se reserve para el final.
Amazon también proporciona métricas de rendimiento relacionadas con el uso de la memoria caché, como conteos de tokens, a través de la respuesta de la API. Esto permite a los desarrolladores optimizar su estrategia de caché y mejorar la capacidad de respuesta de sus aplicaciones.
A pesar de sus ventajas, la efectividad del «prompt caching» puede disminuir con «prompts» extremadamente largos y dinámicos, por lo cual se recomienda a los desarrolladores evaluar detalladamente la estructuración de sus «prompts» para asegurarse de obtener el máximo rendimiento.
Finalmente, el «prompt caching» se puede usar junto con la inferencia interregional de Amazon Bedrock. Esta combinación optimiza la selección de la región de AWS más adecuada para las solicitudes, asegurando la disponibilidad de recursos incluso en momentos de alta demanda.