Amazon EC2 Lanza Generalmente las Instancias P5e para Potenciar el Rendimiento en la Nube

La demanda por niveles de cómputo sin precedentes está siendo impulsada por modelos de inteligencia artificial generativa de última generación y aplicaciones de computación de alto rendimiento (HPC). Estos avances tecnológicos están llevando a los clientes a explorar nuevas fronteras para ofrecer productos y experiencias más sofisticadas en diversos sectores industriales.

En el ámbito de la inteligencia artificial, especialmente en modelos de lenguaje grande (LLMs), el número de parámetros ha crecido exponencialmente, incrementando de miles de millones a cientos de miles de millones en tan solo cinco años. Este crecimiento ha mejorado notablemente el rendimiento de los LLMs en tareas de procesamiento de lenguaje natural, pero también ha traído consigo desafíos significativos en términos de recursos y capacidad computacional. El entrenamiento y despliegue de estos modelos requieren grandes cantidades de potencia de cómputo, memoria y almacenamiento, lo que pone a prueba la infraestructura existente.

El tamaño de un LLM es un factor crucial que determina el tipo de cómputo necesario para la inferencia. Los modelos más grandes necesitan más memoria de GPU para almacenar parámetros y cálculos intermedios, así como una mayor potencia computacional para ejecutar las complejas operaciones matemáticas requeridas. Esta necesidad de cómputo incrementado puede resultar en una mayor latencia en la inferencia, un factor crítico en aplicaciones que demandan respuestas en tiempo real.

En paralelo, los clientes de HPC están viendo una tendencia similar. Con el aumento en la calidad y cantidad de datos recolectados y los conjuntos de datos alcanzando escalas de exabytes, la necesidad de soluciones rápidas y eficientes en aplicaciones complejas es más evidente que nunca.

Para satisfacer estas necesidades, Amazon ha anunciado la disponibilidad general de las instancias P5e de Amazon Elastic Compute Cloud (Amazon EC2). Estas nuevas instancias están impulsadas por GPUs NVIDIA H200 Tensor Core, haciendo de AWS el primer proveedor de la nube en ofrecer la GPU H200 en producción. Adicionalmente, se ha anunciado que pronto estarán disponibles las instancias P5en, una variante optimizada para redes de las P5e.

Las instancias P5e ofrecen 1.7 veces más capacidad de memoria de GPU y 1.5 veces más ancho de banda de memoria de GPU en comparación con las instancias existentes que utilizan GPUs NVIDIA H100 Tensor Core. Cuentan con 8 GPUs NVIDIA H200 con 1128 GB de memoria de alta velocidad, procesadores AMD EPYC de tercera generación, 2 TiB de memoria del sistema y 30 TB de almacenamiento local NVMe. Además, proporcionan un ancho de banda agregado de red de 3200 Gbps con soporte para GPUDirect RDMA, lo que permite una latencia más baja y un rendimiento eficiente al escalar, omitiendo la CPU para la comunicación entre nodos.

Para 2024, las instancias P5en emparejarán GPUs NVIDIA H200 con procesadores Intel Xeon Scalable de cuarta generación personalizados, habilitando PCIe Gen 5 entre la CPU y la GPU. Estas instancias ofrecerán hasta cuatro veces el ancho de banda entre CPU y GPU y menor latencia de red, mejorando así el rendimiento de las cargas de trabajo.

Las instancias P5e están diseñadas específicamente para el entrenamiento, ajuste fino y ejecución de inferencias en modelos LLMs y modelos de base multimodales en aplicaciones de IA generativa. La mayor capacidad y ancho de banda de memoria de GPU, junto con la posibilidad de utilizar tamaños de lotes más grandes, convierten a estas instancias en la opción ideal para cargas de trabajo que demandan y consumen intensivamente recursos computacionales.

En resumen, las instancias P5e ofrecen mejoras significativas en rendimiento, ahorro de costos y simplicidad operativa en comparación con otras opciones disponibles, posicionándose como una excelente opción para clientes que despliegan cargas de trabajo de inferencia de LLM. Las instancias P5e ya están disponibles en la región US East (Ohio) de AWS.

Para más detalles, se recomienda visitar el sitio web de Amazon EC2 P5 Instances.

Mariana G.
Mariana G.
Mariana G. es una periodista europea y editora de noticias de actualidad en Madrid, España, y el mundo. Con más de 15 años de experiencia en el campo, se especializa en cubrir eventos de relevancia local e internacional, ofreciendo análisis profundos y reportajes detallados. Su trabajo diario incluye la supervisión de la redacción, la selección de temas de interés, y la edición de artículos para asegurar la máxima calidad informativa. Mariana es conocida por su enfoque riguroso y su capacidad para comunicar noticias complejas de manera clara y accesible para una audiencia diversa.

Más popular

Más artículos como este
Relacionados

Milagroso Escape en Puerta Bonita: Coche de Policía Impacta Sin Dejar Heridos

El pasado viernes se reportó un siniestro en el...

Torrenciales lluvias en el norte de España generan alerta mientras se anticipa la llegada de un nuevo frente

La semana comenzó en España con un panorama meteorológico...

Campeón de culturismo hallado sin vida tras tiroteo en un establecimiento nocturno

El mundo del culturismo en México está de luto...

Lanzamiento de Oposiciones 2025 para Cuerpos Docentes en Andalucía

La Junta de Andalucía ha publicado las órdenes de...