El superordenador Aurora ya está vivo: usa miles de CPU y GPU de Intel

Han pasado bastante años, pero en la tarde ayer el Laboratorio Nacional Argonne e Intel anunciaron que ya se había finalizado la instalación del superordenador Aurora. Anunciado originalmente en el año 2015, este se convierte en el primer superordenador del mundo en ofrecer una solución basada en procesadores Intel Xeon junto a los gráficos Intel Ponte Vecchio. Esto también marca otro hito, ser el primer superordenador que hace uso de unas gráficas desarrolladas por Intel.

"Aurora es el primer despliegue de GPU de la serie Max de Intel, el mayor sistema basado en CPU Xeon Max y el mayor clúster de GPU del mundo. Estamos orgullosos de formar parte de este sistema histórico y entusiasmados por la IA, la ciencia y la ingeniería revolucionarias que Aurora hará posibles", dijo Jeff McVeigh, vicepresidente corporativo de Intel y director general del Super Compute Group.

Así de impresionante es el hardware del superordenador Aurora

El superordenador Aurora del Laboratorio Nacional de Argonne se conforma por medio de 10.624 blades de cálculo. Estos suman un total de 21.248 procesadores Intel Xeon CPU Max Series. Junto a ellos, nada menos que 63.744 gráficas Intel Data Center GPU Max Series. Este hardware se acompaña de más de 1.024 nodos de almacenamiento que aportan un total de 220 petabytes (PB) de capacidad con un ancho de banda de 31 terabytes por segundo (TB/s). Para terminar, este superordenador cuenta con 1,36 PB de memoria HBM2e en la CPU, junto a 19,9 PB de memoria RAM DDR5, y 8,16 PB de memoria HBM2e de las GPU Ponte Vecchio.

A finales de este año, se espera que Aurora sea el primer superordenador del mundo en alcanzar un rendimiento máximo teórico de más de 2 exaflops (un exaflop son mil millones de millones 1018 de operaciones por segundo) cuando entre en la lista TOP500. El TOP500 lista los 500 sistemas computación no distribuida más potentes del mundo.

"Aurora aprovechará toda la potencia de la familia de GPUs y CPUs Intel Max Series. Diseñadas para satisfacer las demandas de cargas de trabajo dinámicas y emergentes de HPC e IA, los primeros resultados con las GPU de la serie Max demuestran un rendimiento líder en cargas de trabajo de ciencia e ingeniería del mundo real. Hablamos de hasta 2 veces más rendimiento que las GPU AMD MI250X en OpenMC, y un escalado casi lineal hasta cientos de nodos. La CPU Intel Xeon de la serie Max impulsa una ventaja de rendimiento del 40% sobre la competencia en muchas cargas de trabajo de HPC del mundo real. Algunos ejemplos son el modelado de sistemas terrestres, la energía y la fabricación".

Resto de la información

especificaciones superordenador Aurora

En el corazón de este sistema de última generación se encuentran los elegantes blades rectangulares de Aurora. Estos albergan procesadores, memoria, redes y tecnologías de refrigeración. Cada blade consta de dos CPU Intel Xeon Max Series y seis GPU Intel Max Series. La familia de productos Xeon Max Series ya está demostrando un gran rendimiento inicial en Sunspot. Este se trata del banco de pruebas y sistema de desarrollo con la misma arquitectura que Aurora. Los desarrolladores están utilizando las herramientas oneAPI e IA para acelerar las cargas de trabajo de HPC y AI y mejorar la portabilidad del código a través de múltiples arquitecturas.

La instalación de estos blades ha sido una operación delicada, ya que cada blade tiene un peso de 32 kilogramos. Esto ha requerido maquinaria especializada para integrarse verticalmente en los bastidores del tamaño de un frigorífico de Aurora. Los 166 bastidores del sistema albergan 64 blades cada uno y se extienden en ocho filas, ocupando un espacio equivalente al de dos canchas de baloncesto profesionales en el centro de datos Argonne Leadership Computing Facility (ALCF).

Los investigadores del programa Aurora Early Science Program (ESP) del ALCF y del proyecto Exascale Computing del DOE migrarán su trabajo del banco de pruebas Sunspot al Aurora completamente instalado. Esta transición les permitirá escalar sus aplicaciones en el sistema completo. Los primeros usuarios someterán el superordenador a pruebas de estrés e identificarán posibles fallos que deban resolverse antes de su despliegue. Esto incluye los esfuerzos para desarrollar modelos generativos de IA para la ciencia, anunciados recientemente en la conferencia ISC'23.