NVIDIA retrasa las RTX 50 por culpa de TSMC: problemas con el coeficiente de expansión térmica de las GPU

Nuevas y frescas noticias sobre las RTX 50, aunque una vez más en el día de hoy, nada buenas. Si la noticia y filtración del mayor consumo en esta serie de GPU no era suficiente ahora hay otra información todavía peor: las RTX 50 se van a retrasar por un problema en la fabricación con TSMC, en concreto, con el coeficiente de expansión térmica de la matriz de cada GPU.

Los rumores sobre el hecho de que NVIDIA había tenido que retrasar las GPU para IA con arquitectura Blackwell no solamente eran ciertos, sino que más tarde la compañía confirmó un cambio en la máscara que permitió mejorar el proceso de grabado, pero costó algo de tiempo, no mucho eso sí. Pues bien, hoy sabemos algo más, ya que las GPU de IA y de gaming tienen algunas cosas en común al parecer.

NVIDIA retrasa las RTX 50 por un problema en el coeficiente de expansión térmica

NVIDIA-RTX-50

Se habla de cosas bastante específicas y que hasta ahora no habíamos oído como problemas en la cadena de montaje y grabación de TSMC para las GPU de NVIDIA. Por suerte conocemos los procesos y podemos describir qué está pasando. En concreto, se dice que hay problemas con el RTO, o Run Time Optimization, es decir, NVIDIA y TSMC, sobre todo esta última, tienen problemas con el proceso de optimización en tiempo real de la producción de las RTX 50.

Aquí se engloban bastantes cosas, comenzando por los métodos o técnicas que se necesitan para ajustar la producción. Desde la calibración de los equipos en las White Rooms, hasta la monitorización de la cadena de producción. Este problema de RTO tiene un causante muy específico en estas RTX 50 que parece haber afectado también a las GPU de IA: una discrepancia entre NVIDIA y TSMC sobre el llamado CTE, o coeficiente de expansión térmica.

Y esto solo es posible debido a que los de Taiwán usan su tecnología CoWoS-L en el proceso de creación, ya que es capaz de transmitir internamente hasta 10 TB/s entre matrices. Dicho esto, hay que ser algo más específicos para comprenderlo mejor.

Distintos CTE para distintos materiales, ¿cuál es el culpable?

TSMC-CoWoS-L

Como su propio nombre indica, el CTE no es más que una forma de medir cuánto se expande o contrae un material según la temperatura a la que esté. Como TSMC usa varios materiales para ello y NVIDIA tiene que optimizar el ensamblaje en su diseño, podemos decir que tenemos, al menos, tres materiales generales con sus CTE correspondientes.

El silicio usado en las obleas con un CTE de entre 2.6 a 3.2 µm/m·°C, el sustrato a modo de interposer y packaging que normalmente está hecho de FR4, el cual tiene un CTE de 10 a 20 µm/m·°C (dependiendo de la mezcla entre cerámica y plástico que use) y por último, el tipo de soldaduras, que pueden ser de distintos materiales como el cobre, estaño o una mezcla en aleación, según las partes donde se tenga que soldar, con una media de 16.5 µm/m·°C.

El problema es que la información no define qué material ha presentado problemas por su CTE, y esto deja todo abierto a interpretaciones, aunque sabemos algo más desde la parte técnica del proceso de ensamblado y sus componentes clave.

Problemas con LSI, RDL y el sustrato

CoWoS-L-LSI-RDL-y-sustrato-problemas-RTX-50-coeficiente-expansión-térmica

La información que hay disponible es que TSMC está teniendo problemas entre el puente LSI, el interposer RDL y el sustrato principal, lo cual dado que el CTE no es el indicado podría provocar deformaciones en la GPU una vez soldados todos los elementos. Esto podría originar rupturas en las soldaduras con el paso de los ciclos térmicos, así que era un problema importante a tener en cuenta y ajustar.

La solución llegó mediante un rediseño de las capas Metal-K y reduciendo las alturas totales de la GPU, lo cual tuvo que darse tanto en las GPU de IA como en las RTX 50, solo que en las primeras el problema era mayor por la memoria HBM. Dado que los LSI conectan las matrices y el RDL entrega la energía a dichas matrices, el problema era realmente mayor.

Por suerte, solucionado ya, el retraso de las RTX 50 por este coeficiente de expansión térmica no debería complicar demasiado las cosas para que NVIDIA lance sus productos este mismo año, pero también escuchamos con anterioridad que podrían llegar en el CES 2025 en los primeros días de enero. Ahora ambas posibilidades son reales y todo está en el aire, donde lo único bueno es que de darse dicho retraso este será mínimo.