Red Hat ha dado un paso significativo en el mundo de la inteligencia artificial generativa con el lanzamiento de llm-d, un proyecto diseñado para abordar el que considera uno de los mayores desafíos del futuro: la inferencia a gran escala. Esta innovación pretende mejorar el rendimiento y eficiencia de los modelos de lenguaje generativos al ser implementados en entornos de producción.
El nuevo desarrollo, llm-d, ha sido creado para integrarse de manera eficiente en entornos Kubernetes, utilizando una arquitectura distribuida basada en vLLM y un sistema innovador de enrutamiento de red inteligente con conciencia de IA. Esta combinación permite el despliegue de nubes de inferencia, ajustándose a los más altos niveles de exigencia operativa, incluso bajo uso intensivo.
La inferencia se está convirtiendo en un aspecto vital dentro del sector de la inteligencia artificial generativa, más allá del entrenamiento de los modelos. Según un informe de Gartner, para 2028, se espera que más del 80% de los aceleradores de carga de trabajo en centros de datos estén dedicados a tareas de inferencia. Este pronóstico subraya la necesidad de herramientas como llm-d, capaces de escalar la ejecución de modelos complejos sin incurrir en problemas de latencia o costes excesivos.
La centralización de la inferencia en grandes servidores está mostrando sus limitaciones ante el aumento de solicitudes y la complejidad de los modelos. Frente a este desafío, llm-d surge como una alternativa flexible, abierta y sostenible, prometiendo infraestructuras de inferencia distribuidas que mantengan un alto rendimiento.
Red Hat, en colaboración con sus socios de la industria, está afrontando estos desafíos con llm-d, potenciando vLLM para producir a escala en la inferencia de IA. Al aprovechar la orquestación de Kubernetes, llm-d incorpora capacidades avanzadas de inferencia en infraestructuras empresariales, permitiendo una respuesta eficiente a las demandas críticas mientras reduce el coste total de propiedad asociado a los aceleradores de IA.
El proyecto llm-d se destaca por su soporte de modelos desde el primer día, la desagregación de fases de inferencia, y la descarga de caché KV, entre otras innovaciones. Además, cuanta con el respaldo de una coalición de líderes industriales y académicos, como CoreWeave, Google Cloud, IBM Research y NVIDIA, demostrando un avance conjunto del sector hacia el servicio de modelos de lenguaje a gran escala.
Red Hat promueve una visión de futuro donde las empresas puedan desplegar cualquier modelo en cualquier nube, sin las restricciones de los silos de infraestructura, manteniendo una experiencia de usuario consistente y económica. La compañía, conocida por transformar Linux en la base de la TI moderna, ahora busca configurar el futuro de la inferencia en IA, comprometiéndose a hacer de vLLM y llm-d un estándar abierto para la nueva nube híbrida.
Más información y referencias en Noticias Cloud.