NVIDIA se mete en serios problemas con sus servidores Blackwell: sobrecalentamiento que llevará a un rediseño de los racks al completo
No le están saliendo las cosas a NVIDIA con Blackwell, y parece que los problemas van para largo. Junto a los retrasos por los problemas de fabricación llegaron los de diseño, y tras ellos, todo lo que envolvió a Samsung y su HBM3e. Superados, con algunas semanas de retraso según la compañía, todo debía ir como se esperaba, pero nada de eso. Hoy se informa sobre el hecho de que los servidores de GPU Blackwell para IA sufren un importante sobrecalentamiento, hasta el punto de que NVIDIA tendrá que rediseñarlos.
Todos se inquietan. Tiembla NVIDIA y el miedo invade las sedes de las grandes empresas, deseosas de ver cómo les llegan sus nuevos servidores para poder dar el siguiente paso en IA, pero eso no termina de suceder. Lo realmente inquietante es la cadena de fallos de los verdes, algo poco común y que evidencia que tener los diseños listos antes de tiempo no implica un lanzamiento normal, puesto que es ese tiempo el que se necesita para comprobarlo todo.
NVIDIA enfrenta serios problemas de sobrecalentamiento en sus servidores con GPU Blackwell
La información va un poco más allá y centra el problema en concreto: los servidores GB200 NVL72, es decir, las versiones en rack para bastidores con 72 GPU por cada uno de ellos. Esto no es la primera vez que se escucha, ni mucho menos, pero sí que es la primera vez que se dice abiertamente y se fija el foco del problema en concreto.
Hasta ahora, NVIDIA había detectado serios problemas de refrigeración en sus diseños de bastidores, ya que los racks son compactos y las GPU consumen mucha energía, lo que equivale a necesitar una gran disipación. No se sabe el número exacto, pero sí que sabemos que NVIDIA ha pedido en varias ocasiones a sus proveedores un cambio en el diseño de sus servidores Blackwell, precisamente, por ese sobrecalentamiento. Parecía resuelto, pero no.
Meses de trabajo, prueba y error, clientes con algunos equipos para testear y la información que nos llega es que Huang no ha podido encauzar todo, habrá más retrasos y los grandes, como Microsoft, Meta o Google, se impacientan.
El GB200 NVL72 otra vez a escena y señalado por todos
Parece que la opción más potente también es el foco principal de errores en el seno de la compañía. No hay manera de que funcione para todos sin problemas. Con hasta 120 kW de consumo por rack, el sobrecalentamiento de estos servidores en conjunto dentro de la arquitectura Blackwell está haciendo que el rendimiento de cada GPU se reduzca para conservar su integridad, pero el calor es tal, que no se asegura que el resto de componentes anexos funcione correctamente durante el tiempo de vida útil estimado.
Desde Reuters, NVIDIA informa sobre el hecho de que están trabajando con proveedores y clientes:
"NVIDIA está trabajando con los principales proveedores de servicios en la nube como parte integral de nuestro equipo y proceso de ingeniería. Las iteraciones de ingeniería son normales y esperadas".
En otras palabras, están intercambiando información con todas las partes para intentar solucionar el problema. Lo peor de todo es que hace pocos días el propio Huang hablaba de reducir la cadencia de lanzamientos en hardware gracias al uso de sus Superordenadores con IA.
Si tenemos en cuenta que Blackwell como arquitectura y sus productos fueron presentados en marzo, que estamos a noviembre, que los problemas no se solucionarán para este mes, podríamos estar hablando de casi un año desde la presentación y el lanzamiento por todo lo descrito.
Si NVIDIA no repite los errores con Vera Rubin y las GPU Rxxx, si aprende de los problemas, es posible que alcancen la cadencia de arquitectura anual que buscan, de lo contrario, dos años sigue siendo un tiempo prudencial para llegar sin mermar la reputación de la empresa, que va de error tras error con Blackwell. Esperemos que solucionen los problemas pronto, porque AMD e Intel siguen ganando cuota de mercado a la mínima.