La NVIDIA RTX 5090 tendrá un 33% más de núcleos, bus de 512 bits y 32 GB de memoria GDDR7
Empieza fuerte la mañana de este viernes sin duda. Y es que nos hemos levantado con dos nuevas filtraciones del leaker más fiable para NVIDIA, y por mucho, del mundo. Sí, Kopite7kimi vuelve a lanzar datos sobre lo que podemos esperar de las nuevas RTX 50 y las nuevas gráficas para IA, donde NVIDIA va a poner todo sobre la mesa. Además, hay nuevos rumores sobre el proceso de fabricación para las gráficas gaming, y algún dato anexo relevante. Como anticipo, tenemos que saber que el GB202 para gaming de la RTX 5090 tendrá nada menos que 24.576 núcleos (Shaders), un 33% más que el AD102. Esto es curioso, porque el GB100 para IA tendrán menos Shaders...
En primer lugar, vamos a bajar el suflé desde el último rumor que vimos. Los datos ahora filtrados son mucho más concretos y se ajustan mucho más a un salto evolutivo frente a lo que habíamos visto antes. Vamos a volver a dar porcentajes más o menos cercanos de rendimiento, que aunque no serán totalmente precisos porque faltan variables a concretar en sucesivas filtraciones, serán aproximados, y nos darán un panorama general interesante a tratar.
Un repaso rápido para las definiciones
Es el chip enfocado a la nueva generación de GPU para IA, el cual competirá con todas las opciones que están saliendo en cuento a aceleradores de inferencia de fabricantes como Corsair, Synopsys y otros. Pero antes, y de cara a los más neófitos en arquitectura, solo tres apuntes para entender de qué vamos a hablar en relación a tres términos importantes: Clúster, GPC y TPC.
Clúster: es una agrupación de unidades que están conectadas y trabajan entre sí. En servidores pueden ser de gráficas por centenares, pero en arquitectura de GPU hablamos de agrupación de otras unidades inferiores.
GPC o GPU Processing Clusters, son bloques generales de hardware que incluyen otras unidades menores como son los TPC, los cuales y según la arquitectura cambiarán su número. Es la unidad máxima que tiene envidia para englobar unidades inferiores y contempla por ello todos los elementos de cómputo de una GPU, ya que suele haber varios de ellos.
TPC o Texture Processing Clusters, es la unidad justamente por debajo de los GPC, donde varios de estos terminan por formar uno de ellos. Es decir, cada GPC está lleno de TPC y estos a su vez están integrados por SM, donde dentro de estos últimos están todas las unidades pormenorizadas, pero eso es otra historia, aunque conviene saberlo para entender todo lo que vamos a decir.
Por lo tanto, es un orden jerárquico de organización y reparto de los elementos, donde unos están dentro de otros para mantener orden y coherencia en el reparto y asignación de recursos, desde los más grandes y complejos, hasta los más pequeños e insignificantes.
NVIDIA GB100 para IA, el monstruo que redefinirá el rendimiento
As I mentioned before, GA100 is 8*8, and GH100 is 8*9. GB100 will have a basic structure like 8*10. GB202 looks like 12*8.
— kopite7kimi (@kopite7kimi) September 28, 2023
Lo filtrado revela una configuración distinta al actual GH100, el cual integra nada menos que 8 GPC y 9 TPC por cada uno de ellos. Sabiendo que cada TPC integra dos SM, y que cada SM tiene 128 Shaders (Núcleos como tal), la sumatoria nos da 144 SM con 18.432 Shaders, algo que ya sabíamos de sobra.
¿Cuál es la primera novedad y filtración? El cambio de estructura que van a representar los TPC dentro de los GPC. Pasamos de una configuración 8x9 a una 8x10 en el GB100 para IA, es decir, se mantienen los mismos GPC, pero cada uno ahora integrará un TPC más. Suponiendo que NVIDIA mantenga la misma proporción de SM y que cada uno de estos siga con 128 Shaders, el recuento nos da ahora 160 SM y nada menos que 20.480 Shaders.
Si esto no fuese suficiente, la segunda filtración en referencia a este GB100 afirma que NVIDIA integrará un bus de 8.192 bits, seguramente con memoria HBM3e. Esto supondría que, dado el bus filtrado, el GB100 para IA usaría 16 IMC de 512 bits, haciendo un total de nada menos que 384 GB de memoria, casi nada. Dicho esto, ¿qué hay del sector para gaming? Pues es realmente sorprendente.
NVIDIA GB202 para gaming, un salto de rendimiento importante
If GB202 is developed from GH202, obviously GB202 will double the Raster Engines in a GPC, then double the ROPs in the GPC at least.
If Jensen uses RB+, we will see 4xROPs in a GPC.— kopite7kimi (@kopite7kimi) September 29, 2023
Los datos aportados por el leaker son realmente interesantes. Partiendo de la base de que el AD102 obtuvo una configuración de 12x6, es decir, 12 GPC y 6 TPC dentro de cada GPC, con el GB202 NVIDIA va a dar un salto de gigante hacia delante.
Pasaríamos de ese 12x6 a nada menos que 12x8, pero, ¿por qué se han modificado el número de TPC por cada GPC? Pues parece que por no tocar la estructura general de reparto y mantenerlo igual que en Ada Lovelace, con más TPC sí, pero esto implica que los cambios en el driver son mínimos en este aspecto, pudiendo centrar los esfuerzos del mismo en la optimización del salto a MCM. Además, incluir más TPC por GPC da como resultado un mejor balance de la carga, y esto repercute en mejor eficiencia, así que no parecen ser gráficas que vayan a consumir poco, al menos esta hipotética RTX 5090.
En cualquier caso, ¿qué obtendremos con el GB202 dedicado al gaming? Pues nada menos que 192 SM, sí, más que en el GB100 para IA, lo que supondrá también un salto de núcleos mayor, en concreto, tendremos 24.576 Shaders en la versión completa. Si tenemos en cuenta que el AD102 al completo obtiene 18.432 Shaders, y que ninguna GPU para gaming lo usa, de momento, el salto de rendimiento en estos términos sería del 33,33% sin contar con las mejoras de IPC ni del bus o memoria.
No podemos comprar el AD102 de la RTX 4090 porque no tenemos sabemos si el GB202 será usado en su versión completa que estamos conociendo, o también vendrá recortado en la RTX 5090. Dicho esto, ¿qué hay de la controversia con el bus? Pues se terminó. La RTX 5090 con el GB202 para gaming llegará en su versión completa con 512 bits, que podrían ser recortados a 442 bits o 384 bits.
Si la versión final fuese con 512 bits estamos hablando de 32 GB de GDDR7, un salto cualitativo en este apartado tan crítico hoy en día. Por tanto, y haciendo acopio de todo lo dicho, con dichos Shaders y una frecuencia de 2,9 GHz en Boost, lo que tendríamos es algo más de 142 TFLOPS, un 72% más que en la RTX 4090.
¿Puede ser la RTX 5090 un 72% más rápida?
Tendrá una potencia de cálculo teórica (importante lo de teórica, los TFLOPS no son una unidad fiable de medida de rendimiento en gaming) si los datos son correctos, de un 72% más de rendimiento teórico frente a su sucesora, comparando el GB202 al completo frente al AD102 incompleto de la RTX 4090. Suponiendo que NVIDIA también cape el GB202 para gaming por puro consumo y para aumentar las frecuencias lo máximo posible sin disparar los vatios más allá de 600W, las estimaciones que hacemos son de, aproximadamente, entre un +37% y un +42%, que ya es aventurarse mucho (GB202 al completo vs AD102 capado, si reducen el GB202 finalmente, los porcentajes serían menores)
Hay que tener en cuenta que se espera un incremento de IPC moderado y que está por ver cómo va a paliar NVIDIA el acceso a VRAM y, si acontece, a una supuesta caché fuera del die principal, lo cual restará algo de rendimiento en cuanto a latencia, principal problema y cuello de botella desde las últimas dos décadas en PC.
Para lograr esto, las filtraciones indican que se duplicarán los Raster Engines por GPC, y como poco, se duplicarán los ROP también por GPC, pero hay más. Kopite7Kimi afirma que se podrían usar hasta cuatro veces más ROP por GPC, pero, ¿qué sentido tiene?
Pues acelerar las transacciones entre distintos búferes, en especial, aquellos que tienen que ver con la memoria. Al parecer la potencia de renderización habría aumentado sobremanera (¿dos grupos de FP32/INT quizás?) por lo que se necesita un mayor número de ROP, y seguramente, las TMU harán lo propio, pero esto queda todavía en el aire.
En cualquier caso, y en resumen, lo que podemos esperar son los porcentajes que hemos dado de un +37% o un +40% de media, los cuales evidentemente no son definitivos y seguramente vayan cambiando hacia arriba o hacia abajo conforme se sigan filtrando datos, pero es un punto de partida. En cuanto al GB100 para IA, se desconoce de momento el porqué integra "tan pocos" Shaders, suponemos que es una limitación de consumo autoimpuesta por NVIDIA, donde prima la VRAM a más núcleos.