La demanda por niveles de cómputo sin precedentes está siendo impulsada por modelos de inteligencia artificial generativa de última generación y aplicaciones de computación de alto rendimiento (HPC). Estos avances tecnológicos están llevando a los clientes a explorar nuevas fronteras para ofrecer productos y experiencias más sofisticadas en diversos sectores industriales.
En el ámbito de la inteligencia artificial, especialmente en modelos de lenguaje grande (LLMs), el número de parámetros ha crecido exponencialmente, incrementando de miles de millones a cientos de miles de millones en tan solo cinco años. Este crecimiento ha mejorado notablemente el rendimiento de los LLMs en tareas de procesamiento de lenguaje natural, pero también ha traído consigo desafíos significativos en términos de recursos y capacidad computacional. El entrenamiento y despliegue de estos modelos requieren grandes cantidades de potencia de cómputo, memoria y almacenamiento, lo que pone a prueba la infraestructura existente.
El tamaño de un LLM es un factor crucial que determina el tipo de cómputo necesario para la inferencia. Los modelos más grandes necesitan más memoria de GPU para almacenar parámetros y cálculos intermedios, así como una mayor potencia computacional para ejecutar las complejas operaciones matemáticas requeridas. Esta necesidad de cómputo incrementado puede resultar en una mayor latencia en la inferencia, un factor crítico en aplicaciones que demandan respuestas en tiempo real.
En paralelo, los clientes de HPC están viendo una tendencia similar. Con el aumento en la calidad y cantidad de datos recolectados y los conjuntos de datos alcanzando escalas de exabytes, la necesidad de soluciones rápidas y eficientes en aplicaciones complejas es más evidente que nunca.
Para satisfacer estas necesidades, Amazon ha anunciado la disponibilidad general de las instancias P5e de Amazon Elastic Compute Cloud (Amazon EC2). Estas nuevas instancias están impulsadas por GPUs NVIDIA H200 Tensor Core, haciendo de AWS el primer proveedor de la nube en ofrecer la GPU H200 en producción. Adicionalmente, se ha anunciado que pronto estarán disponibles las instancias P5en, una variante optimizada para redes de las P5e.
Las instancias P5e ofrecen 1.7 veces más capacidad de memoria de GPU y 1.5 veces más ancho de banda de memoria de GPU en comparación con las instancias existentes que utilizan GPUs NVIDIA H100 Tensor Core. Cuentan con 8 GPUs NVIDIA H200 con 1128 GB de memoria de alta velocidad, procesadores AMD EPYC de tercera generación, 2 TiB de memoria del sistema y 30 TB de almacenamiento local NVMe. Además, proporcionan un ancho de banda agregado de red de 3200 Gbps con soporte para GPUDirect RDMA, lo que permite una latencia más baja y un rendimiento eficiente al escalar, omitiendo la CPU para la comunicación entre nodos.
Para 2024, las instancias P5en emparejarán GPUs NVIDIA H200 con procesadores Intel Xeon Scalable de cuarta generación personalizados, habilitando PCIe Gen 5 entre la CPU y la GPU. Estas instancias ofrecerán hasta cuatro veces el ancho de banda entre CPU y GPU y menor latencia de red, mejorando así el rendimiento de las cargas de trabajo.
Las instancias P5e están diseñadas específicamente para el entrenamiento, ajuste fino y ejecución de inferencias en modelos LLMs y modelos de base multimodales en aplicaciones de IA generativa. La mayor capacidad y ancho de banda de memoria de GPU, junto con la posibilidad de utilizar tamaños de lotes más grandes, convierten a estas instancias en la opción ideal para cargas de trabajo que demandan y consumen intensivamente recursos computacionales.
En resumen, las instancias P5e ofrecen mejoras significativas en rendimiento, ahorro de costos y simplicidad operativa en comparación con otras opciones disponibles, posicionándose como una excelente opción para clientes que despliegan cargas de trabajo de inferencia de LLM. Las instancias P5e ya están disponibles en la región US East (Ohio) de AWS.
Para más detalles, se recomienda visitar el sitio web de Amazon EC2 P5 Instances.