NVIDIA tiene problemas en sus sistemas con GPU Blackwell: los MGX GB200 NVL2 sufren demasiada temperatura por aire

Hace pocos meses dimos la noticia sobre el hecho de que NVIDIA iba a tener que posponer la llegada a sus clientes y socios de las GPU y servidores con arquitectura Blackwell destinados a la IA. El varapalo no sentó bien, pero los verdes y TSMC encontraron problemas de fabricación que tardaron algo de tiempo y sobre todo, mucho dinero, en solucionar. Hoy tenemos otra mala noticia, puesto que desde Morgan Stanley se afirma que los servidores MGX GB200 NVL2 están sufriendo problemas de temperatura cuando se venden en sus opciones por aire, no así en las que tienen refrigeración líquida.

No están saliendo las cosas como NVIDIA y TSMC quería, e incluso con Samsung y SK Hynix ha habido problemas. Se ha empujado la tecnología un paso y medio por delante y no se han medido bien las distancias, porque no es normal que en los verdes ocurra esto, pero hasta los más grandes fallan, y ahora hay que rectificar.

Morgan Stanley pone el dedo en la llaga de NVIDIA y sus MGX GB200 NVL2

NVIDIA-MGX-GB200-NVL2

El rendimiento es incontestable, y a resumidas cuentas, para poner en contexto todo, diremos que Blackwell con estos MGX GB200 NVL2 ha multiplicado por 5 el rendimiento frente a H100 en Llama 3, por 9 en bases de datos vectoriales y frente a cualquier CPU del mercado en procesamiento de datos el rendimiento se eleva a 18 veces, una locura.

Si estos números ponen contentos a los administradores de sistemas e ingenieros que vayan a recibir sus MGX GB200 NVL2, no lo harán los problemas que tendrán al conectarlos y enchufarlos, sobre todo a los primeros. Huelga recordar que rendimiento aparte, estos MGX GB200 NVL2 integran 2 GPU Blackwell y 2 CPU Grace conectados mediante un NVIDIA NVLink-C2C a 900 GB/s para ofrecer en total un ancho de banda entre ambos nodos de 1,4 TB conjunto.

Todo es maravilloso, pero entonces, ¿dónde está el problema de la temperatura? Pues en el hecho de que NVIDIA vende los MGX GB200 NVL2 como un rack de 2U completo, con su sistema de disipación inclusive, el cual puede ser por aire o por agua al parecer, con la diferencia de precio correspondiente.

Los MGX GB200 NVL2 se calientan demasiado y obligarán a NVIDIA a tomar medidas

NVIDIA-MGX-Blackwell-formatos

Imaginemos la demanda increíble que tienen estos sistemas, completos, prácticamente Plug and Play a falta de las conexiones traseras, una belleza que debe de impulsar el rendimiento de manera increíble. Pero están fallando. Y lo están haciendo, como decimos, por la temperatura, y así lo dice el informe interno de Morgan Stanley:

NVIDIA MGX GB200 NVL2 alberga 2 GPU Grace y 2 GPU B200 Blackwell en la misma placa y PCB, y el módulo de GPU se conecta a la placa PCB principal mediante un módulo SXM7. Todos los servidores exhibidos en OCP se basaban en un factor de forma refrigerado por aire en formato 2U.

Sin embargo, nuestras conversaciones con socios de la cadena de suministro nos indicaron que todavía hay algunos problemas térmicos con el factor de forma de 2U, por lo que es posible que termine siendo un factor de forma de 4U.

No parece grave, ¿verdad? Pues sí que lo es, porque como hemos dicho, es un sistema de rack cerrado, no actualizable, que cuesta una fortuna estimada de casi medio millón de dólares por sistema. Ahora imaginemos si NVIDIA tiene que optar por cambiar de 2U a 4U en todos los MGX GB200 NVL2 de todos sus socios en todo el planeta.

Si equivocarse con las máscaras les costó una fortuna por los chips que tuvieron que mandar a la basura en TSMC, si no tuvieron suficiente con el packaging y las HBM3 de Samsung, donde también se fueron a la basura, ahora llegan los problemas de temperatura de los sistemas MGX GB200 NVL2, algo que es mucho más sencillo de comprobar que los primeros errores. Veremos cuánto les cuesta en tiempo y en dinero a los verdes solucionar dicho problema.