El desafío del «cold start» en los sistemas de recomendación ha sido una constante fuente de problemas para mejorar la experiencia del usuario en plataformas digitales. Este fenómeno, caracterizado por la falta de señales personalizadas cuando se introducen nuevos usuarios o contenido, ha llevado a los desarrolladores a buscar formas innovadoras para abordarlo. Las soluciones estándar como el filtrado colaborativo o las listas de popularidad a menudo no logran captar la sutileza necesaria, resultando en recomendaciones genéricas que no cumplen con las expectativas del usuario.
Recientemente, una nueva solución ha emergido, haciendo uso de modelos de lenguaje de gran escala para sintetizar desde el primer día perfiles de interés detallados. Este enfoque transforma el típico inicio frío en una experiencia acogedora, permitiendo la creación de representaciones de usuario y artículo, conocidas como «embeddings», sin necesidad de extensos periodos de recopilación de datos de interacción.
Esta innovadora estrategia se implementa utilizando los chips de Amazon EC2 Trainium y contenedores de aprendizaje profundo con el AWS Neuron SDK. Esto facilita que los ingenieros experimenten con distintos modelos de lenguaje y codificadores, permitiendo iteraciones rápidas sin tener que alterar el código base.
Para probar la efectividad de esta metodología, se recurrió al conjunto de datos de reseñas de libros de Amazon, mediante el cual se simulan escenarios de «cold start» con un enfoque en reseñas de usuarios y metadatos de libros. La capacidad de los modelos de lenguaje para enriquecer los perfiles de usuario desde datos limitados permite anticipar subtemas que podrían interesar al usuario.
El proceso de optimización incluye la conversión de intereses expandidos y catálogos en vectores comparables mediante codificadores como Google T5, con búsquedas rápidas gestionadas por índices FAISS. A través de este análisis, se demuestra que al aumentar el tamaño de los modelos, las señales generadas son más precisas y eficaces en las recomendaciones.
Los resultados prometen una implementación efectiva en entornos de producción, asegurando que estos perfiles enriquecidos puedan conectar exitosamente a los usuarios con una gama más amplia de contenido. Esta iniciativa demuestra cómo el uso estratégico del aprendizaje automático no solo puede revitalizar los sistemas de recomendación, sino también mejorar significativamente la experiencia del usuario desde el primer contacto.