Los modelos de razonamiento DeepSeek-R1 han irrumpido en el Amazon Bedrock Marketplace y Amazon SageMaker JumpStart, ganándose un lugar entre las herramientas avanzadas de inteligencia artificial por su habilidad para desentrañar problemas complejos. Con su reciente inclusión en un entorno sin servidor en Amazon Bedrock, su capacidad de razonamiento extenso y detallado ha capturado la atención de la industria.
DeepSeek, en su publicación sobre el rendimiento de estos modelos, destaca su eficacia en pruebas matemáticas rigurosas como AIME-2024 y MATH-500. En estas evaluaciones, DeepSeek-R1 mostró un desempeño competitivo frente a gigantes como Claude Sonnet 3.5 de Anthropic y GPT-4 de OpenAI, marcando un paso importante en el desarrollo de IA capaces de competir al más alto nivel.
Uno de los avances clave subrayados por los investigadores es la habilidad del modelo DeepSeek-R1-Zero para resolver tareas más efectivamente al disponer de más tiempo para la reflexión. Sin embargo, ello conlleva un uso intensivo de lo que se conoce como «tokens de pensamiento», necesarios durante el proceso de inferencia y que generan un costo adicional antes de alcanzar una respuesta.
La optimización de prompts en Amazon Bedrock se presenta como una solución eficiente para mejorar el rendimiento de modelos como DeepSeek-R1. Durante experimentos, se detectó que problemas matemáticos sencillos no llegaban a solución debido a las restricciones máximas de tokens. Ampliar este límite de 2,048 a 4,096 tokens ha demostrado mejorar el proceso de razonamiento antes de llegar a una conclusión final, estableciendo la optimización de tokens de pensamiento como un objetivo crucial.
Esta técnica ha mostrado resultados alentadores al aplicarse en el «Último Examen de la Humanidad» (HLE), un conjunto de preguntas desafiantes que requiere un conocimiento profundo y va más allá de respuestas simples. Gracias a la optimización de prompts, los modelos han logrado reducir sustancialmente el número de tokens de pensamiento sin comprometer la precisión, permitiendo además un notable incremento en la eficacia general. Por ejemplo, se observó un aumento en la precisión del 8.75% al 11%, mientras se reducía el tiempo y costo de procesamiento.
Este avance indica que la optimización de prompts no solo es una herramienta valiosa para la eficiencia y efectividad de los modelos de razonamiento, sino que también sugiere un futuro donde estas técnicas jugarán un rol esencial en la implementación práctica de la inteligencia artificial, maximizando tanto la precisión como el uso optimizado de recursos computacionales.