NVIDIA RTX 4090 (AD102): ¿vale lo que cuesta frente a las RTX 30 y RTX 20?
Dejando el rendimiento a un lado, que parece ser espectacular, no tanto por la arquitectura en sí, sino por todo lo que la rodea de software y optimizaciones neuronales, ¿valen las RTX 4090 y RTX 4080 el dinero que pide NVIDIA por ellas? El precio es alto y lo vamos a tratar en un posterior artículo, porque tiene miga, pero desde el punto de vista de los cambios, arquitectura y tamaños, ¿lleva razón el equipo verde para situar el NVIDIA AD102 tan sumamente arriba frente al GA102 y TU102? Veámoslo.
Gracias al leaker Locuza tenemos desgranados mucho mejor los datos y sobre todo, la disposición arquitectónica del AD102. La comparativa no ofrece dudas, pero sí que es cierto que hay que desgranar varios aspectos clave que pueden indicarnos si, efectivamente, NVIDIA está pidiendo algo justo por cada tarjeta o no.
NVIDIA RTX 4090 y AD102, ¿cuánto se ha mejorado chip por chip?
Partiendo de la base de que se ha filtrado el tamaño en área del AD102 y sus billones de transistores, esto nos deja un panorama muy interesante para ver la evolución de cada chip tope de gama de NVIDIA según han pasado las últimas generaciones.
La imagen inferior lo deja muy claro, pero sí que es cierto que hay que matizar varias cosas en cada salto. Por ejemplo, Del GP102 al TU102 NVIDIA duplicó los VRF por SIMD y la caché L2, pasó de 16 nm a 12 nm, que fue un salto menor puesto que eran hermanos prácticamente, y esto costó pasar de 471 mm2 a 754 mm2 bajando la densidad de 25,1 a 24,7. Se introdujeron los Tensor Cores y los RT Cores, por lo que además del Mesh Shader, Async Compute y demás, la densidad total bajó un 2%, no había manera de mejorar sin perder.
Con el GA102 actual se mantuvo de nuevo el bus y la caché, se bajó el área total a 628,4 mm, la densidad pasó de esos 24,7 MT/mm2 a 45,1 y en general, se ganó un +83% en estos términos, producto de los 8 nm de Samsung que, si bien fueron un salto adelante, en términos de densidad están muy por detrás de los 7 nm de TSMC y AMD.
Con la vuelta a los taiwaneses y en un nodo específico para NVIDIA como es 4N, la marca mantiene el mismo bus, pero multiplica por 16 el tamaño de la caché L2, lo que supone un gasto muy grande en área. Esta (el área) es de 608,44, aunque se ha representado según la imagen que mostró NVIDIA con 618,33 mm2, pero esta diferencia es solo artística, no real, la métrica correcta es la primera evidentemente.
Un aumento de la densidad jamás visto en una GPU
Podríamos decir que generación litográfica tras generación litográfica no se ha visto un salto tan grande nunca, al menos que un servidor recuerde. Con AD102 pasamos a 76,3 millones de transistores, lo que nos da una densidad de 125,4 MT/mm2, o lo que es igual, comparado con su predecesor es un +178%, una auténtica locura. Lógicamente, eso es porque el N8 de Samsung no era demasiado denso, pero incluso con el N7 de TSMC el aumento estaría fácilmente por encima del 100%.
Esto último se puede apreciar al comparar la MI250X de AMD con el N6 de TSMC, su tamaño, sus transistores y su densidad, la cual está por debajo del GA102 y en transistores está un poco por encima. Volviendo a NVIDIA, como vemos, las áreas entre GA102 y AD102 son muy muy parecidas y eso tiene una explicación muy interesante: ambos chips son compatibles pin a pin con un mismo PCB.
O dicho de otra manera, una RTX 3090 Ti podría tener un AD102 soldado, que no funcionará porque hay reestructuración de dichos pines por los cambios de la arquitectura, pero que soldarían perfectamente y con precisión entre una RTX 3090 Ti y una RTX 4090, no importa donde vaya uno u otro si de soldadura hablamos.
¿Por qué ocurre esto? No es casualidad ni mucho menos. NVIDIA preparó a los AIB para que los PCB, los disipadores y en general lo térmico y lo eléctrico fueran sin problemas en las RTX 40. Por lo tanto, y como se especulaba al lanzamiento de la RTX 3090 Ti, esta tarjeta fue una prueba para todos los diseñadores y fabricantes de cara a la RTX 40, ahora se confirma.
Cambios importantes en la arquitectura y diseño
Como ya adelantamos en el artículo exclusivo del AD102 cuando se filtró su diagrama, este chip contará con 12 GPC, dispuestos cada uno de ellos con dos filas internamente hablando. Si comparamos con la arquitectura Hopper, NVIDIA cumplió su palabra y diseñó todo desde cero como bien se puede apreciar, donde el problema era claramente la caché L2 y la HBM.
Por ello, y salvando otros detalles como el cambio en el CPC 3D de Hopper, lo que vemos en el AD102 es algo curioso. Comenzando por los controladores de memoria estructurados de forma no simétrica, mientras que la caché es accesible por cada GPC dividiendo verticalmente la unión entre ambos con la Crossbar en el centro del chip.
Esto se ha hecho así por los cambios sufridos dentro de cada GPC, ya que ahora albergan 3 CPC, con 6 TPC y 12 SM, sin contar con los motores 3D FF (motores de Texturas y RT Cores) que dan salida a todo el GPC. El controlador PCIe con 16 líneas está ubicado en la parte baja del chip según la imagen y aquí hay otro dato curioso: no hay controlador para NVLink.
Lo comentado es algo que ya sabíamos, porque NVIDIA ha prescindido de ello en las tarjetas y se ve a simple vista, pero es que en el chip tampoco está, porque este ocupa un buen espacio dentro del die y estructuralmente hablando no se aprecia en la diapositiva.
NVIDIA AD102: ¿mantiene los motores polimórficos?
PES is present on old architectures as well. it's nothing new. pic.twitter.com/d6bwRMkxLH
— August1 (@August8182) September 20, 2022
Una nueva filtración expone los números que hemos comentado más arriba sobre GPC, TPC y SM, pero añade dos datos más clave:
- 12 motores de Textura (3 x 4 TEX)
- 3 motores Polimórficos (PES)
Esto sorprende porque el salto de Shaders y en concreto de FP32 es muy alto, así que se esperaba ampliar los PES, pero no, se mantienen como en Ampere, lo cual desconcierta un poco y deja abiertas varias puertas a la explicación de este movimiento.
Si la información es correcta, NVIDIA podría tomar varios caminos como hemos dicho, siendo el más probable una nueva topología de interconexión entre SM y GPC. Esto significaría algo totalmente nuevo y estaría enfocado a la próxima arquitectura, que, por otro lado, debería ser MCM. Además, puede implicar que, si no es en Ada Lovelace, en la siguiente los drivers podrían marcar un punto y aparte.
Es decir, habría un driver para las RTX 40 e inferiores, y posiblemente un nuevo driver para las presumibles RTX 50 y posteriores. ¿Por qué? Pues porque si lo que decimos es cierto y vamos bien encaminados, la programación de los GPC individualmente y sus unidades no bastarían, habría que programar el driver en base a clústeres o grupo de ellos (Thread Group Cluster) para así enfocar el rendimiento a los subprocesos correctamente.
Eso implicaría casi con total seguridad, que el Warp Scheduler pasaría a un número mayor de hilos por ciclo, y esto, en teoría, arrastraría al Dispatch y a los archivos de registro a ser de mayor tamaño o a poder ejecutar más instrucciones por ciclo, cambiando en parte el Front End de cada SM.
Precios, rendimientos e innovación, ¿son justos?
Pero es mucha especulación en este punto, así que mejor nos quedamos con lo que ya sabemos, donde todavía hay cosas que explicar en profundidad, porque no hay datasheet de la arquitectura como es obvio, pero sirve de introducción a esta y a los cambios que veremos en poco más de un mes. Por último, solo queda responder a la pregunta inicial: ¿vale una RTX 4090 su precio frente a una RTX 3090 Ti o una RTX 2080 Ti? Aquí entran más factores fuera de la arquitectura, como el precio de las obleas (está disparado) y el diseño, I+D y todo lo que se enfoca desde el software aplicado al hardware, como DLSS 3.0, va todo unido en estos casos.
Visto todo el conjunto, no nos corresponde a nosotros lanzar un juicio de valor, puesto que cada uno tendrá una impresión distinta. En cualquier caso, como adelantamos, los precios son más altos que en la serie anterior, así que sabiendo que el rendimiento será entre un 70% y un 200% mejor con estas RTX 4090 y RTX 4080 (dependiendo de lo que se compare y cómo se compare) que el coste de los materiales en disipador, PCB y demás no es motivo , os trasladamos la pregunta a vosotros.
¿Está justificado el salto de precio frente a la innovación, costes e I+D general en este NVIDIA AD102?