En la conferencia NVIDIA GTC 2024, NVIDIA anunció un avance significativo en el ámbito de la inteligencia artificial (IA) generativa: el soporte para los NIM Inference Microservices en Amazon SageMaker Inference. Esta integración permitirá a las empresas desplegar modelos de lenguaje grandes (LLMs) de manera rápida y eficiente, optimizando tanto el rendimiento como el costo de los recursos.
Gracias a los contenedores pre-optimizados de NIM, los desarrolladores pueden ahora implementar avanzados LLMs en minutos, lo que anteriormente podía tardar días. Esta capacidad facilita la incorporación de IA generativa en aplicaciones empresariales, ampliando el alcance y las funcionalidades de dichas implementaciones.
Construidos sobre tecnologías de vanguardia como NVIDIA TensorRT, NVIDIA TensorRT-LLM y vLLM, los NIM están diseñados para ejecutar inferencias de IA de manera sencilla, segura y eficiente en instancias aceleradas por GPU de NVIDIA, alojadas en SageMaker. Esto simplifica el desarrollo, permitiendo a los equipos técnicos aprovechar estas herramientas avanzadas con solo unas pocas líneas de código.
NIM forma parte de la plataforma de software NVIDIA AI Enterprise, disponible en el AWS Marketplace, y ofrece un conjunto de microservicios que posibilitan el uso de LLMs avanzados en diversas aplicaciones. Entre estos usos destacan el desarrollo de chatbots, la redacción automática de documentos y otras aplicaciones de procesamiento y comprensión del lenguaje natural (NLP). Empresas líderes como Amgen, A-Alpha Bio, Agilent y Hippocratic AI ya están aprovechando las capacidades de NVIDIA AI en AWS para impulsar la biología computacional, el análisis genómico y la IA conversacional.
En esta guía, se explica cómo los usuarios pueden utilizar los modelos de IA generativa y LLMs integrados con NIM en SageMaker. Se detallan las instrucciones para desplegar estos modelos avanzados, optimizando así su rendimiento y costo. Con contenedores pre-optimizados de NIM, los LLMs pueden estar funcionando en aplicaciones empresariales construidas en SageMaker en cuestión de minutos. La guía incluye un cuaderno de muestra que facilita el inicio, mostrando las sencillas APIs y el código necesario para activar estas avanzadas capacidades.
Comenzar con NIM es un proceso sencillo. Los desarrolladores tienen acceso a una amplia gama de modelos de IA optimizados disponibles en el catálogo de APIs de NVIDIA, los cuales pueden utilizar para construir y desplegar aplicaciones específicas. Es posible prototipar utilizando la interfaz gráfica de usuario del catálogo o mediante interacción directa con la API.
Para implementar NIM en SageMaker, es necesario descargar NIM y posteriormente realizar el despliegue. El proceso se inicia seleccionando «Run Anywhere with NIM» para el modelo deseado. Se puede obtener una licencia de evaluación gratuita de 90 días en el Catálogo de APIs proporcionando un correo electrónico empresarial.
Es importante asegurarse de que el dominio de SageMaker tenga acceso habilitado a Docker antes de comenzar. Posteriormente, se debe crear un perfil de usuario y un espacio JupyterLab dentro de SageMaker, e instalar la CLI de Docker utilizando un script bash.
En el ejemplo proporcionado, se utiliza una instancia ml.g5.4xlarge, equipada con una GPU NVIDIA A10G, y se comienza con un cuaderno de muestra en SageMaker Studio JupyterLab. Tras importar los paquetes necesarios y configurar la sesión de SageMaker, el rol y la información de la cuenta, el contenedor NIM, disponible en la Amazon ECR Public Gallery, se despliega de forma segura.
Los NIMs se acceden a través del catálogo de APIs de NVIDIA, registrándose para obtener una clave de API, la cual se almacena en una variable de entorno. Luego, se referencia el contenedor subido a Amazon ECR previamente, se define la configuración del endpoint y se crea el endpoint de SageMaker.
Una vez desplegado el endpoint, se pueden realizar solicitudes al mismo utilizando la API REST para probar diferentes preguntas y prompts, interactuando con los modelos de IA generativa. NIM está incluido en la licencia empresarial de NVIDIA y viene con una licencia de evaluación de 90 días. Para continuar su uso más allá de este período, es necesario contactar con NVIDIA para obtener precios privados en AWS Marketplace. NIM también está disponible como una oferta de pago dentro de la suscripción de software NVIDIA AI Enterprise.
Se anima a los usuarios a explorar NIM y adaptarlo a sus propios casos de uso y aplicaciones, potenciando así el desarrollo de soluciones de IA innovadoras y avanzadas.