Revolution in the Data Center: AI Redesigning the Infrastructure of the Future

En los años 2002 y 2023, el mundo ha sido testigo de una acelerada proliferación de aplicaciones de inteligencia artificial (IA) en diversas industrias. ¿Cuál es el motor detrás de esta revolución? Los centros de datos, que se han convertido en el corazón palpitante de este auge, junto con el avance de las GPUs, especialmente las de NVidia.

El crecimiento explosivo de las aplicaciones de inteligencia artificial ha exigido una reevaluación completa de los centros de datos tradicionales. La infraestructura existente generalmente no está diseñada ni equipada para manejar la enorme capacidad de procesamiento paralelo y la memoria que requieren las cargas de trabajo de la IA. Solo en 2024, se espera que el mundo genere 1,5 veces la cantidad de datos digitales que produjo hace dos años.

La demanda de cargas de trabajo de IA pronto superará la computación en la nube tradicional, y un enfoque uniforme no satisface las necesidades de los desarrolladores de IA, que requieren soluciones personalizadas para sus inmensas y específicas necesidades.

El problema con los Centros de Datos tradicionales

Los centros de datos tradicionales fueron construidos principalmente para soportar aplicaciones de propósito general, ofreciendo un equilibrio entre rendimiento y costo. La mayoría de la potencia de cálculo se diseñó para cargas de trabajo como servidores web, sitios de comercio electrónico y bases de datos, pero no para la potencia de procesamiento necesario para entrenar un Modelo de Lenguaje Grande (LLM).

Principales limitaciones de los centros de datos tradicionales:

  • Equilibrio de rendimiento y costo: No se optimizan para tipos específicos de cargas de trabajo.
  • Uso fragmentado: Las cargas de trabajo escalan de manera incremental, sin necesidad de gran capacidad de procesamiento paralelo ni almacenamiento masivo.
  • Cargas de trabajo centradas en CPU: Que requieren significativamente menos energía y generan mucho menos calor en comparación con las GPU.

Los desarrolladores de IA necesitan soluciones personalizadas con gran capacidad, disponibilidad inmediata y soporte técnico de alto nivel. Los centros de datos existentes carecen de la arquitectura, el enfriamiento y el software necesarios para ejecutar cargas de trabajo de IA o computación acelerada.

Componentes clave del rediseño

  1. Arquitectura: La densidad de potencia por servidor se ha cuadruplicado en comparación con los servidores de CPU. Mientras que los centros de datos tradicionales están diseñados con una densidad promedio de 5 a 10 kW por rack, los centros de datos de IA ahora requieren 60 o más kW por rack.

  2. Enfriamiento: Los servidores con múltiples GPU generan mucho más calor que un servidor tradicional, lo que presenta dos desafíos principales:

    • Las soluciones actuales de enfriamiento por aire se ven estresadas y requieren que los racks de GPU estén más espaciados para enfriarse eficazmente.
    • Los racks de próxima generación pueden consumir hasta 120 kW de energía por gabinete, generando un calor que no puede ser enfriado por aire.
  3. Software: El software tradicional cuenta con redundancias y puede recurrir a otros componentes de hardware si uno falla. Los LLMs se entrenan como un clúster, lo cual tiene significativas implicaciones de costo si falla el hardware. Se necesita un stack de software construido específicamente para optimizar el rendimiento de la carga de trabajo y recuperarse automáticamente de interrupciones.

Transición de Centros de Datos para la IA: Una actualización integral

Adaptar los centros de datos existentes para convertirlos en instalaciones de IA implica importantes actualizaciones de hardware e incluso de la estructura del edificio para manejar nuevos tipos de cargas de trabajo. This includes:

  • Reemplazar hardware con componentes capaces de procesar y transmitir grandes cantidades de datos en tiempo real.
  • Reconfigurar la red para soportar un ancho de banda mucho mayor, asegurando una comunicación eficiente entre racks de GPU densamente empaquetados y sistemas de almacenamiento remoto.
  • Rediseñar el diseño, enfriamiento, energía y sistemas de cableado para acomodar la mayor densidad e interconectividad de los racks de GPU.

Reimaginando el centro de datos

La primera etapa es la energía. Rediseñar el sistema de energía para manejar estas cargas de trabajo ocurre a nivel del centro de datos y del rack. Los sistemas de enfriamiento futuro requerirán enfriamiento líquido en cada parte del centro de datos, utilizando menos agua que los sistemas de enfriamiento por aire actuales. Incorporar enfriamiento líquido en nuevos centros de datos requiere planificación e inversión en infraestructura especializada.

La transformación de la conectividad del centro de datos no se trata solo de conectar servidores, sino de facilitar una comunicación eficiente de alta velocidad entre GPUs. En un entorno impulsado por IA, donde el procesamiento paralelo es la norma, la velocidad a la que las GPUs intercambian datos determina el rendimiento general.

El resultado de este rediseño son aplicaciones más rápidas y eficientes que las ejecutadas en infraestructuras legadas. Los despliegues de Kubernetes sin servidor permiten tiempos de arranque rápidos, escalado automático receptivo y la capacidad de manejar miles de GPUs por carga de trabajo, con una infraestructura construida específicamente para resolver los desafíos presentados por estas grandes cargas de trabajo.

Con estos avances, los centros de datos están preparados para soportar la revolución de la inteligencia artificial y las aplicaciones de computación de alto rendimiento, marcando el comienzo de una nueva era en la infraestructura digital.

Silvia Pastor
Silvia Pastor
Silvia Pastor is a prominent journalist for Noticias.Madrid, specializing in investigative journalism. Her daily work includes covering important events in the capital, writing current affairs articles, and producing audiovisual segments. Silvia conducts interviews with key figures, provides expert analysis, and maintains an active presence on social media, sharing her articles and providing real-time updates. Her professional approach, focused on truthfulness, objectivity, and journalistic ethics, makes her a reliable source of information for her audience.

More popular

More articles like this one.
Relacionados

IBM Impulsa el Proyecto Starling: Corrección de Errores Cuánticos Ultra-rápida con FPGAs de AMD

IBM está a punto de dar un significativo avance...

Capturado en Londres: Delincuente sexual liberado por error tras una larga búsqueda

La Policía Metropolitana de Londres ha logrado localizar y...

Venezuela Detiene a Mercenarios Supuestamente Vinculados a la CIA

El USS Gravely, un destructor de la Marina de...

La Comunidad de Madrid Impulsa Cinco Innovadores Proyectos ante el Creciente Interés por los Pistachos

La expansión del cultivo de almendras está transformando el...
Privacy Overview

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.