NVIDIA AD102: así es la arquitectura del chip más potente de las RTX 40
Aunque ayer tuvimos un vistazo sobre el AD102 y su arquitectura, hoy toca desgranarlo más a fondo, puesto que NVIDIA ha mostrado su diagrama de bloques al completo con leves cambios y detalles bastante interesantes. Lógicamente vamos a hablar de la versión al completo que, en teoría, llegaría con la RTX 4090 Ti, aunque esto es extrapolable cambiando las características generales para las RTX 4090, ya que portan el mismo chip, pero capado. ¿Cómo es este monstruo de la computación para gaming con arquitectura Ada Lovelace?
En cuanto a especificaciones generales no hay cambios respecto a lo que vimos ayer, pero conviene recordar que estamos hablando de un chip fabricado por TSMC con su proceso exclusivo para NVIDIA 4N y que por ello la densidad se ha maximizado, pudiendo incluir 76,3 mil millones de transistores.
NVIDIA AD102, arquitectura y novedades no vistas
El chip tiene un área de 608,4 mm2, así que es un poquito más pequeño que su predecesor, pero en cambio, dada su densidad, NVIDIA ha podido apretar mucho más en esta serie de chips. AD102 como arquitectura tendrá 12 GPC, 72 TPC, 144 SM con 18.432 Shaders (CUDA Cores), nada menos que 144 RT Cores y 576 Tensor Cores.
Las frecuencias en Boost suben hasta los 2,5 GHz mientras que la interfaz de memoria no se ha modificado y mantiene los 384 bits. Su Encoder NVENC pasa a la octava generación y soporta el doble de rendimiento en AV1, algo que seguro es muy solicitado por ciertos usuarios.
Repasada toda la teoría que ya hemos visto en dos artículos anteriores, ¿cuáles son las novedades como tal? Pues según ha mostrado y comentado NVIDIA, todo radica a nivel de SM, donde los cambios son sustanciales aun habiendo mantenido la estructura general.
Novedades en los SM de Ada Lovelace
Como sabemos y yendo desde fuera hacia adentro, cada GPC obtiene 6 TPC con un motor de Rasterizado común para todos ellos. En este aspecto, en los motores de rasterización, hay novedades interesantes, ya que cada GPC tiene un motor dedicado para él solo, pero este tiene dos particiones ROP con ocho ROP cada una. Eso significa que Ada Lovelace tiene un +71,42% de ROP que Ampere, que es justamente y de manera totalmente precisa la diferencia que existe en Shaders entre el GA102 y este AD102.
Es decir, cada motor de rasterización tiene 16 ROP, multiplicado por los 12 GPC nos da un total de 192 ROP. Por otro lado y centrándonos tras el inciso, cada TPC integra dos SM y cada SM sigue implementando 4 Sub-Cores como en Ampere.
Ahora vamos a dentro de cada Sub-Core, donde están todas las novedades y la magia de esta nueva arquitectura, puesto que la disposición de elementos como conceptos de arquitectura como hemos visto no cambia como tal y no hay que confundirlos con la disposición de ellos física en el chip. Una cosa es la teoría y los diagramas y otra cómo se implementan físicamente grabado en el silicio.
Siguiendo con la teoría, cada Sub-Core está dividido en tres motores distintos, donde NVIDIA de nuevo deja fuera de ellos y compartiendo los recursos de cada SM a los RT Core, los motores de Texturas en cuatro grupos (64 KB por SM) y además, la L1 de Datos y Shared Memory, que se mantiene en 128 KB.
Por lo tanto, los cuatro Sub-Cores divididos en tres motores distintos cada uno implementan una novedad muy importante que no se había visto hasta ahora. La caché de instrucciones L0, el Warp Scheduler y el Dispatch ahora son un solo conjunto que procesa 32 hilos por clock. Lo único que NVIDIA ha respetado aquí frente a Ampere son los Archivos de Registros que siguen teniendo un tamaño de 16.384 x 32 bits.
Volviendo a los motores, lo que vemos es que por un lado tenemos los Tensor Cores de 4ª Gen, un motor FP32 exclusivo y uno compartido para más FP32 e INT32. Este último puede funcionar con ambos tipos de datos, por lo que NVIDIA contabiliza su totalidad como FP32 y los suma al motor exclusivo del que ya dispone. Por lo tanto, tenemos 16 unidades FP32 y 16 unidades FP32/INT32 por cada Sub-Core, esto multiplicado por los cuatro Sub-Cores que tiene un SM nos da un recuento de 128 unidades FP32, lo que a su vez multiplicado por los 144 SM que tiene el AD102 en su arquitectura nos da la cifra de 18.432 Shaders.
Entendido esto volvemos a incidir en que son dos motores distintos y comparten los recursos comunes, pero uno solo trabaja con datos en Punto Flotante, mientras que el otro puede variar con Enteros si es necesario.
NVIDIA, los diagramas y los enteros
El mayor problema para comprender los cambios llega desde la propia NVIDIA, ya que cada arquitectura tiene un diagrama de sus SM avanzado y otro simplificado. El que tenemos justo arriba es el avanzado y como vemos es incorrecto, puesto que especifica cuatro motores y no tres, donde además muestra una sola unidad para LD/ST, mientras que realmente tiene 4, además del SFU (Special Functional Unit).
También se dijo que Ada Lovelace tendría 192 KB de L1 y finalmente tiene 128 KB (18 MB en total). Pero esto no es lo más importante en este aspecto, puesto que ni el número de FP32 ni el de INT32 es mayor al esperado, pero sí que es una sorpresa encontrarnos con un solo grupo de unidades para la L0, Warp Scheduler y Dispatch, lo que ahora NVIDIA denomina simplemente como Warp en un tamaño de 64 de ellas, aunque mantiene los Thread por clock.
La novedad es que Ada Lovelace obtiene un único bloque con un 33% más de Warp frente a Ampere, y es que era necesario por las novedades comentadas en los motores de rasterización.
¿Es Ada Lovelace una arquitectura totalmente nueva?
La realidad es que no, es solamente una evolución de Ampere optimizada para los nuevos RT Core y Tensor Core de 4ª y 3ª Generación, los números frente a Ampere lo demuestran, porque la gran mayoría son escalables:
- +71% de GPC.
- +71% de SM.
- +71% de Shaders.
- +71% de ROP.
- +71% de caché L1.
- +1.600% en caché L2 (de 6.144 KB vs 98.304 KB, la RTX 4090 tiene 73.728 KB de L2, 12 veces más que la RTX 3090 Ti con 6,144 KB).
Por lo tanto, gran parte de la mejora se centra en incluir "más de todo", tener una mayor frecuencia final y por supuesto, minimizar las salidas a la VRAM/PCIe gracias a los incrementos de la caché. El movimiento de NVIDIA trata de potenciar el Ray Tracing y la IA con escalado mediante DLSS 3, pero en cuanto no se usen estos lo que vamos a ver son incrementos de rendimiento que irán desde el +50% hasta un +80% en juegos (y con suerte) para aquellos que no tengan soporte y ese, y no otro, será el rendimiento real y escalar de la arquitectura.
Clock por clock y en IPC el rendimiento no debería estar por encima del 10% frente a Ampere como arquitectura y SM, sin RT o DLSS, puesto que solo tenemos unas cachés más grandes, que evidentemente mejoran lo presente y se agradecen.
Pero, bien es cierto que no sabemos el impacto directo en el IPC de Shader Execution Reordering (SER), porque si bien NVIDIA habla de una mejora de hasta tres veces el rendimiento en Ray Tracing, en la escalabilidad del Frame Rate solo se está por encima un 25%.
Por lo tanto, y en un principio, el impacto en el rendimiento si no se requiere Ray Tracing o si no hay suporte debe ser nulo, porque el objetivo con SER es reorganizar dinámicamente las cargas de trabajo ineficientes y por eso se implementa dentro de NVAPI. Podríamos pensar que en el renderizado tradicional mejorará algo, el problema es cuánto.
Resumiendo, Ada Lovelace es una evolución de Ampere que se parece demasiado, es decir, tiene más parecidos que novedades reales y todo porque NVIDIA intenta implementar y potenciar el área donde AMD está más débil a base de lanzamientos de juegos que usen sus características, porque en cuanto a mejoras como tal, el precio que piden por sus gráficas no está acorde a la evolución de la arquitectura del AD102 y de Ada Lovelace en general.
AD102, su arquitectura en cuanto a rendimiento y eficiencia
Solo la mayor densidad y frecuencia del nodo junto con los nuevos motores RT Cores y Tensor Cores parecen marcar la diferencia real, porque los cambios de arquitectura son realmente mínimos (Warp y Caché L2). Es decir, la imagen superior donde NVIDIA muestra una mejora de eficiencia de 2x es más gracias a TSMC que a la propia arquitectura, donde solo la mayor caché L2 influye en este término.
Comparativamente hablando y sabiendo que el 4N de NVIDIA y TSMC es una evolución directa del N5P de la compañía para los de Huang, lo que debería tener entre manos el equipo verde si lo comparamos con el N7 de TSMC (la diferencia con el N8 de Samsung es mayor) es un 40% menos de consumo (se habla de un 50% en el 4N) y un 80% más de densidad, unido a unas frecuencias un 15%-20% más rápidas por el propio nodo y que NVIDIA ha llevado hasta el 35% entre RTX 3090 Ti y RTX 4090... Pues veamos que tal.
Si puedes llegar a una reducción del 50% de consumo en el nodo (como poco), supongamos que lo explicado en la arquitectura añade un porcentaje mínimo de eficiencia (¿+-5%?) y empujas las frecuencias un 35%, pues tienes un bonito +-90% (tirando por lo bajo). Si a esto le sumamos el hipotético aumento de IPC del 10% por los cambios en la arquitectura del AD102 y Ada Lovelace, pues estamos en los valores que da la propia NVIDIA en la imagen de más arriba, siempre aproximándonos claro.
Insistimos en que partimos de comparar los hipotéticos datos del 4N vs N7 de TSMC y no del N8 de Samsung, que está muy por detrás del segundo de los taiwaneses, así que en teoría, realmente NVIDIA debe de tener mejores datos que los expuestos y con ello se reduciría todavía más la mejora de IPC, porque las mejoras del nodo son mayores a lo expuesto realmente.
Todo esto está esbozado obviamente, nunca sabremos cuanto mejora el 4N frente al N5 y mucho menos frente al N8 de Samsung, y salvo comparativa directa, tampoco sabremos cuánta mejora hay de IPC, pero al alza, los números cuadran (sobradamente además), y refuerzan de alguna manera que Ada Lovelace es un upgrade técnico más que una nueva arquitectura.