El superordenador más rápido falla todos los días: culpan a las GPU AMD

La mayoría de usuarios, cuando les hablas de una RTX 4090 y un i9-13900K junto a 64 GB de RAM, ya te consideran en lo más alto de la Master Race y valoran estos PC como ordenadores dignos de la NASA, para denotar su gran rendimiento. No obstante, no les llegan ni a los talones de la potencia que pueden ofrecer los superordenadores. Entre estos, el superordenador más potente del mundo es el Frontier y, a pesar de no tener rival en velocidad, es muy inestable, pues no puede funcionar un día sin fallos, algo que se le achaca a las GPU AMD Instinct en parte.

En el mundo de los superordenadores, hay uno que no tiene rival en potencia bruta y precisamente posee gran parte de hardware de AMD. Este es el superordenador Frontier del Laboratorio Nacional de Oak Ridge, el cual con un rendimiento de 1.685 ExaFLOPs en FP64, el cual es considerado el top 1 actualmente. Para lograr esta cifra, dispone de 9.472 procesadores AMD EPYC 7453 de 64 núcleos cada uno de ellos, por lo que contiene un total de 606.208 cores en su interior. Pero ahí no acaba la cosa, pues también posee de nada menos que 37.888 GPU Radeon Instinct MI250X.

Frontier tiene fallos y se cree que la causa son las AMD Instinct

AMD Instinct MI250X GPU

Además de los componentes mencionados de AMD, dispone de interconexiones Slingshot de HPE con 21 MW de consumo. Estas permiten crear una red de alto rendimiento dedicada a la supercomputación a exaescala algo que el Frontier es capaz de llevar a cabo. O eso pensábamos, pues ahora se ha anunciado que no para de tener fallos y errores si requerimos dicha potencia. Concretamente, los problemas de hardware impiden que este monstruoso ordenador funcione correctamente cuando se demandan cargas de trabajo que sean de aproximadamente 1 ExaFLOP FP64.

Según dijo Justin Whitt, director de Oak Ridge Leadership Computing Facility (OLFC), están trabajando actualmente para ver qué problemas de hardware hay y por qué ocurren. Añade, además, que los fallos que experimenta el superordenador Frontier con AMD son tan frecuentes que ocurren en cuestión de horas, no de días. Respecto a que componentes son los culpables, apuntan a las GPU Instinct MI250X de AMD como una de las principales causas.

Otro culpable de los fallos del superordenador recae sobre HPE

AMD Superordenador Frontier

Si bien es considerada una de las causas de estos problemas de hardware, Justin asegura que estas GPU no son las culpables de todos los problemas. De hecho, defiende a AMD asegurando que no deberían preocuparse por sus productos y es mejor enfocarse en este asunto analizando todos los demás componentes. De hecho, se rumorea que hay otra pieza que podría ser la culpable de que este superordenador no pueda funcionar ni un día entero.

Esta vez, hablamos de la interconexión HPE Slingshot para dar vida a la red HPC de este superordenador. Esta utiliza la arquitectura Cray EX de HPE junto a las interconexiones Slingshot, las CPU AMD EPYC y las GPU AMD Instinct. No obstante, al igual que pasa con la acusación hacia las GPU AMD Instinct MI250X, nos encontramos de nuevo sin pruebas que lo demuestren. Para más inri, si comparamos estos componentes, encontramos similitudes en otros superordenadores, como el Lumi de Finlandia, que funciona sin problemas. Este tiene una potencia de 550 PetaFLOPs y es considerado el tercer superordenador más potente del mundo.

Todo esto, empleando un sistema basado en Cray EX, AMD EPYC Milan y AMD Instinct. Así pues, quizá todo se deba a la enorme diferencia de rendimiento entre ambos superordenadores o la cantidad de componentes que ha necesitado para funcionar el superordenador Frontier. Lo único que tenemos claro, es que este tipo de problemas atrasará su correcto funcionamiento hasta 2023.