Las GPU NVIDIA RTX 40 serán casi un 100% más rápidas que las RTX 30

Nuevos datos al terreno de juego, datos muy interesantes porque hay que hablar de arquitecturas como tal y de posibles rendimientos a la vista, puesto que el supuesto diagrama de bloques de los SM y GPC se ha visto filtrado para las RTX 40, por lo que podemos hacernos una idea más acertada de hacia dónde apunta NVIDIA.

Lo primero que debemos tener claro es que Ada Lovelace es una arquitectura distinta a Hopper como tal. NVIDIA segmentará así sus gamas, potenciando lo mejor de ambas para enfocar los mercados de forma más agresiva y siendo un paso más frente a lo que vimos con Ampere. De alguna manera, la cual vamos a ver a continuación, las hará más competitivas frente a AMD, la cual está siguiendo también pasos similares. Dicho esto, vamos con los cambios que veremos en la arquitectura para gaming Ada Lovelace.

RTX 40 vs RTX 30, ¿hay un salto tan grande de rendimiento?

NVIDIA-RTX-40-Ada-Lovelace-SM-Diagrama-arquitectura

No, realmente no, al menos si los datos son ciertos (echad como siempre un poco de sal aquí para degustar lo siguiente). Y es que el hype va bajando un poco y pasamos de ese supuesto +2,2X a números más realistas y cercanos, aunque también es cierto que nos faltan datos cruciales como vamos a ver a continuación. En cualquier caso, los pies en el suelo.

Para no confundirnos, lo que vemos arriba es el diagrama TPC del nuevo AD102, que al mismo tiempo será el que usen todos los chips de las RTX 40 como estructura base, siendo cada SM la estructura fija. Lo principal para entenderlo es que estamos viendo visualmente hablando un SM al lado del otro y no uno encima del otro, esto puede llevar a confusión porque parece que hablamos de una arquitectura MCM y no será así, al menos por si hablamos de un chip unitario (otra cosa sería un sistema de matrices SoIC de TSMC)

Esto es importante aclararlo porque NVIDIA siempre muestra un SM y los TPC los muestra apilando SM de forma vertical, pero insistimos en que es solamente una representación como diagrama, no un cambio en la arquitectura. El motivo de representar esto así es una nueva unidad llamada Asynchronous Memory Accelerator o AMA, la cual conectará los SM entre sí dentro de un TPC. Esto parece que tiene mucho que ver con los cambios que vamos a ver más abajo. Así que comprendido esto vamos con los cambios. Seguro que sabemos que los GPC de NVIDIA están formados por TPC y estos a su vez por SM en lo que a jerarquía se entiende, y luego dentro de los SM tenemos las distintas unidades.

NVIDIA Ada LoveLace vs Ampere, comparativa entre AD102 vs GA102

Sabiendo esto y comparando el nuevo AD102 con el actual GA102 tenemos 12 GPC frente a los 7 de la arquitectura Ampere, pero aunque hay un 70% más de ellos, cada uno en su interior mantiene los 6 TPC que tienen las RTX 30, así como los 2 SM por cada uno de ellos. En otras palabras, se mantiene la jerarquía de los GPC, pero se aumenta el número de ellos.

Ahora vamos con los SM como unidad mínima. Cada uno de ellos tiene lo que NVIDIA llama Sub-Core, donde se mantienen los 4 de Ampere, pero no albergan el mismo número de unidades y aquí empiezan los cambios. NVIDIA ha pasado de tres motores por cada Sub-Core a 4, lo que antes era un grupo para FP32 e INT32, uno independiente para FP32 y los Tensor Cores ahora en este AD102 pasa a formar parte como dos grupos independientes de FP32 y uno de INT32, más los Tensor Cores de cuarta generación.

¿Por qué se hace esto? Porque NVIDIA quiere pasar de 64 unidades FP32 a 128 y pretende desmultiplicar los INT32 añadiendo 64 unidades por cada uno de estos Sub-Cores, dando un total de 192 unidades. Es decir, hay 2 motores FP32 con 64 unidades y un motor INT32 también con 64 unidades. Entonces, ¿cuáles son los cambios aquí? El número de FP32 no aumenta, pero al separarlos de los INT32 para crear un motor independiente el recuento ahora no es 128 en Ampere y Ada Lovelace, sino que ahora son 128 + 64 (FP32 + INT32). El objetivo con esto es añadir músculo al renderizado y posiblemente que los INT32 dediquen sus recursos a cálculos para los RT Cores o para los Tensor Cores, dependiendo de la complejidad de la escena y las necesidades.

Seguramente NVIDIA pretenda ir por el camino hacia un Ray Tracing más puro sin incluir el renderizado del mismo y el trabajo de los algoritmos BVH en el pipeline gráfico, algo que entenderemos y se debería ver en la presentación de la arquitectura, por lo que por ahora solo son especulaciones por nuestra parte.

NVIDIA-Sub-Core-Ada-Lovelace-AD102

Por lo tanto, cada SM tiene Sub-Cores y cada uno de ellos tiene cuatro motores con 2 X 64 unidades FP32 + 1 X 64 INT32, y aparte, los Tensor Cores. Una sumatoria que en total y dados los cuatro Sub-Cores que forman un SM es de 512 unidades FP32 y 256 unidades para INT32, lo que da de forma global 768 unidades por cada uno de los dos SM que tiene un TPC (es complicado de pillar a la primera, lo sabemos). Haciendo matemática simple, son 768 unidades por SM, multiplicado por los dos SM que tiene un TPC, multiplicado por los 12 TPC nos da un recuento ya conocido de 18.432 unidades, que en este caso NVIDIA los trata como Shaders independientes.

Después de comprender esto llegan las cachés y su jerarquía, donde hay importantes cambios. Pasamos de tener una L1D con 128 KB por cada SM con memoria compartida a un sistema mucho más complejo donde cada SM ahora tiene L1D con 192 KB compartidos y una L1I de la cual no sabemos nada. Pero hay más cambios. Y esque lo que antes era una unidad L0 + Warp + Dispatch ahora son tres unidades independientes por cada Sub-Core para un mismo tamaño y bus de archivo de registro.

Son tres motores independientes con 32 Thread por ciclo de reloj (esto último no varía), pero parece que este movimiento tiene que ver no solamente con el reparto visto de INT32 y FP32, sino con el hecho de que la nueva L1I pueda balancear el reparto de la carga de manera más óptima (es común para todos los Sub-Cores) y para eso se necesita desmultiplicar y dividir estos motores principales.

Si creías que los cambios habían terminado... Pues no. Lo que antes eran cuatro unidades de carga y almacenamiento ahora pasan a un solo bloque con la misma función, respetando por supuesto el SFU que no sabemos si ha incrementado su tamaño. Ahora sí, para finalizar, las unidades de textura se mantienen intactas (que sepamos) mientras que los RT Cores serán más complejos dando un salto a su tercera generación, de la cual tampoco tenemos información al respecto, pero seguro que implican modificaciones importantes visto todo lo anterior.

Lo que sí que se ha filtrado es un aumento exponencial de la caché L2, que pasa a un total de 96 MB para el AD102. Al mismo tiempo, no nos podíamos olvidar de los ROPs visto el salto de rendimiento que va a haber y NVIDIA ha sido inteligente dotando a esta nueva arquitectura del doble de unidades, 32 por GPC para ser concretos, lo que nos daría un total de 384 ROPs para la RTX 4090 frente a los 112 de la RTX 3090, el salto es cualitativo.

AD102 vs GA102 vs TU102 vs GA100 vs GH100

Tras lo explicado, una tabla comparativa:

AD102 RTX 40 vs GA102 RTX 30 vs Hopper GH100 (2)

La tabla es más sencilla para comprender todo lo dicho y además añade el GA100 y el GH100, por lo que es realmente simple de ver comparativamente hablando lo que supondrá Ada Lovelace y su AD102 para las RTX 4090 frente al resto.

¿Qué podemos esperar al respecto en cuanto a rendimiento real? Pues a falta de saber las frecuencias base y Boost, cómo de rápido y eficiente es el nodo 4N frente a los N5 (ambos de TSMC), no podemos sacar conclusiones precipitadas. Solo nos podemos basar en los 1.780 MHz en Boost y 1.500 MHz en base del GH100 que incluye NVIDIA en su versión SXM5 para servidores y que integra el mismo proceso litográfico, pero distinta arquitectura a pesar de compartir Shaders (incluyendo FP64 y FP16 como tal).

Se habla de una potencia en FP32 de 90 TFLOPS, más del doble que en el GA102 actual, pero como bien sabemos los TFLOPS no son una buena unidad de medida y posiblemente de esos +2,2X que se hablaba terminemos en un +2X simplemente, que de igual manera es un salto brutal, como lo es en consumo, pero al mismo tiempo es más eficiente comparativamente hablando, curioso cuanto menos. En cuanto al precio... El precio será otra cosa distinta, pero lo que tenemos que tener claro es que las obleas están disparadas por más de 16.000 dólares, así que baratas no van a ser, eso seguro.

VIA: Kopite

Artículos relacionados