NVIDIA detecta en los GB300 y B300 problemas de sobrecalentamiento por los DrMOS
Los fantasmas vuelven a sobrevolar a NVIDIA, ya que una vez más la temperatura está siendo un quebradero de cabeza para los verdes. Un nuevo informe ofrece datos muy concretos sobre sus nuevas GPU Blackwell Ultra, es decir, las GB300 y B300 que llegarán el año que viene para destrozar todos los récords en IA, pero solo si resuelven el sobrecalentamiento que ha sido detectado.
Hay que explicar un poco qué está pasando, porque hay un círculo que se intenta cerrar y que comprende a la empresa AOS y MPS, sus DrMOS, costes, rendimiento, área y temperatura, NVIDIA necesita no cometer los mismos errores que con GB200 y B200, pero no se lo están poniendo nada fácil, y los consumos de las GPU, que van en aumento tienen la culpa.
Un problema de sobrecalentamiento en los GB300 y B300 frena el diseño de NVIDIA
El increíble consumo que va a poner NVIDIA encima de la mesa el año que viene está teniendo su primera repercusión ya a finales de 2024. AOS (Alpha and Omega Semiconductor) está teniendo serios problemas con las muestras de ingeniería que NVIDIA les ha suministrado, ya que al parecer, sus DrMOS (Driver-MOSFET), un componente clave en las gráficas actuales que regula el voltaje al combinar MOSFET con drivers en un paquete unificado, tienen un importante sobrecalentamiento con los GB300 y B300.
El informe da cuatro puntos clave a tratar. El primero indica que NVIDIA está priorizando dentro de AOS los DrMOS 5x5, es decir, los que miden 5 x 5 mm, con el objetivo de reducir costes. El problema es que al ser más pequeños, aunque cuestan menos, tienen menos área total para la disipación de la altísima temperatura que enfrentan.
El segundo punto, es que AOS es especialista en DrMOS de este tamaño, y por tanto, los ofrece a un coste inferior por el gran volumen que pueden fabricar. En tercer lugar, el diseño de DrMOS que quiere NVIDIA enfrenta un sobrecalentamiento con las GB300 y B300 porque, curiosamente, dicho diseño no es el correcto, y aquí entra dentro el sistema de refrigeración, puesto que van unidos.
Cambiar a DrMOS de 5x6 y de AOS a MPS
Es la otra opción, pero no gusta. NVIDIA podría pedir muestra en este tamaño a AOS a costa de un menor volumen de producción inicial y un nuevo diseño por su parte. La otra opción que se bajara es que MPS le suministre sus DrMOS de 5x5 para probar sus capacidades y tener más proveedores, o mover la producción a estos últimos desde AOS.
El problema es que los DrMOS de 5x6 son algo más caros, pero disipan mejor la temperatura por su mayor área total. Por lo tanto, los verdes tienen que tomar un camino con las GB300 y B300: cambiar el diseño y refrigeración con AOS para los DrMOS 5x5, sabiendo que son más baratos, u optar por MPS y su diseño 5x6 siendo más caro, pero evitando el sobrecalentamiento, aunque teniendo un problema inicial con el volumen de producción.
Sea como fuere, NVIDIA tiene que elegir ya, porque no puede enfrentar los retrasos que ya vivió este año con sus GPU para IA en un momento del mercado donde las empresas devoran el stock y cierran contratos de suministro con los verdes anualmente por miles de millones. No es una opción el retraso, y mucho menos seguir con los problemas de sobrecalentamiento existentes en GB300 y B300 para Blackwell Ultra siendo las GPU más caras para IA de la historia.