En la actualidad, la creciente demanda de soluciones de inteligencia artificial (IA) y aprendizaje automático (ML) ha catalizado un imperativo esencial en el ámbito empresarial: la optimización de los procesos de formación, despliegue y escalado de estos modelos. Aunque el avance en IA, en especial en el dominio de la inteligencia generativa, avanza a un ritmo vertiginoso, las herramientas para operaciones de aprendizaje automático (MLOps) continúan evolucionando para estar a la altura de estos desafíos. Los clientes exigen historias de éxito que ilustren cómo adoptar eficazmente nuevas culturas y soluciones operativas que respalden a sus científicos de datos. Las soluciones deben ser suficientemente flexibles, permitir una integración sin contratiempos con otros sistemas y ofrecer un camino claro para automatizar las MLOps utilizando servicios de AWS y herramientas de terceros, como veremos a continuación con el uso de Pulumi y Datadog.
Crexi, un mercado digital especializado en transacciones de bienes raíces comerciales, es un ejemplo destacable de cómo se han satisfecho estas necesidades empresariales. Mediante el desarrollo de un marco versátil y poderoso para la creación y despliegue de pipelines de IA/ML, Crexi ha logrado que sus modelos de ML sean desplegados y gestionados con eficiencia, cumpliendo múltiples objetivos de proyectos.
En esta iniciativa, Datadog, un servicio de monitorización para aplicaciones a escala en la nube, y Pulumi, una plataforma de infraestructura moderna como código (IaC), juegan papeles críticos. Datadog refuerza la colaboración entre los equipos de desarrollo y operaciones, minimizando los tiempos de inactividad y resolviendo problemas de rendimiento, mientras que Pulumi permite gestionar los recursos de la nube con lenguajes de programación populares y simplificar la provisión, entrega y pruebas en la nube.
El núcleo de la infraestructura de Crexi se fundamenta en disparadores de AWS Lambda que llaman de manera asíncrona a los endpoints de Amazon SageMaker para ejecutar la lógica de inferencia de los modelos. Los resultados se almacenan en Amazon S3 y Amazon Data Firehose, asegurando una integración sin fisuras con otros sistemas.
Para garantizar un despliegue rápido y eficiente de sus modelos de ML, Crexi ha implementado una infraestructura de integración y despliegue continuo (CI/CD), gestionada mediante Pulumi. Esta infraestructura no solo facilita el retroceso de las pipelines en caso de errores, sino que también supervisa proactivamente la salud de las mismas, identificando problemas con anticipación.
La implementación se lleva a cabo mediante acciones de GitHub que ejecutan scripts de Pulumi en un formato de CI/CD, lo que permite desplegar, actualizar y destruir pipelines de ML, asegurando una infraestructura repetible y libre de regresiones de código.
Por otro lado, la monitorización en tiempo real de estas pipelines se consigue mediante un panel avanzado de Datadog, el cual posibilita una evaluación detallada y un análisis histórico sencillo del estado de salud de las tuberías, facilitando la detección y solución ágil de cuellos de botella y errores potenciales.
Este modelo de despliegue de pipelines no solo satisface las necesidades de IA/ML de Crexi, sino que también instala las bases para una innovación continua, permitiendo que las operaciones actuales se mejoren y alineen con la experimentación y el desarrollo de nuevas técnicas.
Con esto, Crexi se ha situado a la vanguardia en el uso de MLOps, manejando con destreza la complejidad de los despliegues y asegurando un ciclo iterativo de mejora y experimentación que potenciará sus proyectos futuros.