¿Era una mala opción la NVIDIA RTX 4080 12 GB con su bus de 192 bits?
Rios de tinta se han escrito sobre este tema y no hay muchos análisis reales sobre ello. ¿Es la RTX 4080 12 GB una mala opción con sus 192 bits de bus? ¿Acaso NVIDIA ha intentado dar gato por liebre a los usuarios poniendo una GPU que bien podría ser gama media (RTX 4070) a precio de gama alta? Pues vamos a analizar brevemente una GPU que como vimos hace solo unos días, rinde bastante bien a un precio "decente" dentro de la gama alta.
El revuelo ha sido de tal calibre que NVIDIA ha tomado la difícil decisión de cancelar una tarjeta gráfica tras haberla presentado a bombo y platillo junto a sus hermanas. Pero realmente solo hay un motivo para hacerlo y es el que se esgrimió por parte de los verdes: un problema de marketing. ¿Cómo se ve desde el punto de vista de la arquitectura?
NVIDIA RTX 4080 12 GB, arquitectura y datos
La base para todos los chips de NVIDIA en cada generación es la misma: los SM, y como tal, solo tienen que añadir más y comprobar el balance con cachés, controladores de memoria, frecuencias y velocidades de VRAM, así como los tamaños de los die y su tasa de éxito por área para decantarse por unas características u otras.
Con esto en mente, y sabiendo que la RTX 4080 12 GB tenía un bus de 192 bits, muy criticado, ¿era realmente un problema? La realidad, a todas luces y sin ninguna duda, es que no. El precio es el factor más determinante y será juzgado por cada uno de nosotros, pero desde el punto de vista técnico, no hay ni un solo "pero" que ponerle a esta tarjeta y nos explicamos.
Ada Lovelace y su subsistema de memoria, un paso necesario
Lo primero que debemos comprender es que hay cambios arquitectónicos muy importantes en Ada Lovelace como arquitectura general. A pesar de que NVIDIA ha dado el salto a los 5 nm optimizados con el nodo 4N de TSMC, el hecho de querer meter el máximo número de Shaders en cada chip y sobre todo, ser esta arquitectura un paso intermedio de cara a MCM como diseño general implica cambios en el subsistema de memoria.
A todas luces parece que NVIDIA tomará un camino similar a AMD sacando la L2 del die principal (RX 7000) y dejándola fuera en chips aparte conectados físicamente mediante interposer a este. Por lo tanto, entendiendo que tenemos un aumento de núcleos muy alto ya de entrada en las RTX 40, los cambios en los SM y en cada chip dentro de este subsistema de memoria son grandes y complejos.
Cada SM en Ada Lovelace tiene 128 KB de caché L1. Esta caché es unificada y se puede configurar a voluntad del programador o incluso de la carga, siendo esta L1D o compartida. La caché L2 tiene la magia aquí y el mayor peso en los cambios, y cuando hablamos del chip AD104 que iba a incluir esta RTX 4080 12 GB se ha de tener en cuenta que el tamaño se ha incrementado por 9,6x frente a su predecesor.
¿Por qué se necesita este aumento de caché?
Principalmente por tres motivos:
- Es una memoria mucho más rápida que la VRAM.
- Mayor tamaño implica menor acceso a la VRAM o un Swapping mucho más rápido.
- Se necesita una mayor L2 para trabajar con SER y Ray Tracing.
- El salto en número de Shaders implica una mayor potencia general y por lo tanto, mayor caché también en general.
- Las mayores velocidades de GDDR6X necesitan o bien un bus de datos mayor, o una caché mucho más grande.
Todos estos factores, sobre todo los dos últimos, evidencian que multiplicar el tamaño era necesario, y la proporción escogida aumenta según se escala o se desciende en la gama de chips, lo cual implica al mismo tiempo diferentes buses, pero sobre todo menos controladores de memoria instalados en el die.
No hay que obviar el salto en Deep Learning e IA enfocados para el Ray Tracing, Ahí también se necesita un aumento de caché para poder rasterizar y resolver el algoritmo BVH de forma más rápida y para cuadrarlo a tiempo dentro de la pipeline.
El problema del consumo y la eficiencia
Tener un bus más grande ya no es sinónimo de mejor. Solo hay dos caminos para trabajar con la VRAM de la GPU:
- Bus de mayor tamaño y más lento, con una L2 contenida.
- Bus de menor tamaño y más rápido, unido a una mayor L2.
El primero es el que habíamos tenido hasta ahora, pero esto presentaba dos problemas que NVIDIA estaba dispuesta a obviar y que, por otra parte, podrían ser realmente tres si los verdes no fueran tan al límite. El primero es una mayor área para albergar los controladores de memoria en el chip. Más bus implica mayor número de ellos, y además, un enrutado más complejo, pero a cambio se obtenía una L2 más pequeña en tamaño físico y lógico, lo que reducía el coste del chip sin comprometer el rendimiento del mismo.
El problema de esto es que era mucho menos eficiente, ya que la L2 y la L1 tenían que estar en continuo trasvase de información con la VRAM, lo que a su vez da como resultado otro inconveniente añadido: mayor latencia. Salir a buscar la información a la VRAM es costoso en tiempo y en energía, pero si puedes valerte de una eficiencia general en el chip acorde a lo que puedes disipar o tolerar, pues solo te queda el aspecto del tiempo de acceso y el tiempo de renderizado en la pipeline. Si consigues cuadrarlo y mantenerlo estable, es un sistema de bus y caché perfectamente válido.
Esto se ha paliado aumentando la frecuencia de la VRAM y reduciendo los tiempos de acceso con ello. Pero esto ya no es posible como tal, porque la escalada de velocidad de esta memoria se ha detenido (por ahora) y se está aplanando la curva y por si fuese poco, el coste de añadir los últimos módulos GDDR6X se está disparando, encareciendo la tarjeta gráfica final.
¿La solución? Optar por el camino de AMD tras haber puesto toda la carne en el asador con dos tipos de núcleos como son los RT Cores y los Tensor Cores: aumentar la caché L2 en valores muy altos y rebajar el bus de memoria con ello, permitiendo que el espacio generado por el menor número de controladores se aproveche en gran parte en la L2 de forma física.
Aumentando tanto la L2 se consigue una mayor eficiencia energética, y aunque no tenemos valores reales facilitados por NVIDIA, este hecho cambia la velocidad de renderización de la pipeline a la hora de trabajar, puesto que todo se realiza de forma más rápida, con mucha menor latencia y por ende, con un menor consumo. Esto permite empujar los límites del chip en Shaders o frecuencia (ambos también, es un caso válido) más allá del otro concepto de arquitectura que disponía de un bus de mayor tamaño.
El inconveniente, obviamente, al tener la L2 en el mismo die, es que el coste de fabricación de cada chip es más alto, puesto que la caché L0, L1 y L2 es lo más costoso de grabar.
¿Qué detalles podemos sacar del bus de 192 bits de la RTX 4080 12 GB?
Pues muy simples. La arquitectura está bien balanceada y escalada chip por chip. El AD104 es una versión muy recortada en Shaders frente a la RTX 4090, pero obtiene solo la mitad de bus y un tercio menos de la mitad de L2. En cifras se aprecia más claramente al comparar AD102 vs AD104:
- Shaders -> 16.384 vs 7.680 (-53,125%)
- Tamaño de Registros -> 32.768 vs 15.360 KB (-53,125%)
- Caché L1 -> 16.384 KB vs 7.680 KB (-53,125%)
- Caché L2 -> 73.728 KB vs 49.152 KB (-33,33%)
- Interfaz de memoria (Bus) -> 384 bits vs 192 bits (-50%)
- Velocidad VRAM GDDR6X -> 21 Gbps vs 21 Gbps (0%)
- Tamaño de la VRAM -> 24 GB vs 12 GB (-50%)
- TGP -> 450 vatios vs 280 vatios (-37,77%)
- TFLOPS FP32 -> 82,58 vs 40,09 (-51,45)
¿Por qué tienen sentido estos datos si la caché L2 es el factor menos degradado? Pues porque hay un aumento de la frecuencia entre ambos chips. En concreto, la comparación es de:
- Frecuencias Boost: 2.520 MHz vs 2.610 MHz (+3,57%)
Lo que se está buscando aquí es un chip más rentable económicamente, que consuma lo mínimo y que debido a esto se necesite un disipador más barato, balanceando con ello el rendimiento, la caché L2 y el consumo para cuadrar un precio mejor para la compañía. Haber aumentado la L2 hubiese implicado un mayor consumo (hay que mantener un equilibrio) y un mayor rendimiento, cerrando la brecha y se podría haber bajado la frecuencia, pero el coste total sería mayor y no es lo que se pretendía.
No perjudicar tanto la L2 (es el valor más alto porcentualmente hablando para bien, -33,33%, el menor de todos) es debido a que se ha mantenido la velocidad de la VRAM y por lo tanto, tener más caché disponible consigue reducir el consumo en gran medida, puesto que la pipeline trabaja mucho menos con la GDDR6X. Esto produce una mayor distancia de vatios consumidos que si comparamos AD102 vs AD103 (-28,88%). Evidentemente cuanta más diferencia haya en vatios, mejor para el chip que menos consume.
Entonces, ¿era lógico llamar a esta GPU RTX 4070 en vez de RTX 4080 12 GB? La denominación no importa, lo que importa y seguirá importando es el rendimiento, el consumo y el precio en un ratio cada vez más cerrado. Si comparamos esta RTX 4080 12 GB con la RTX 3090 Ti veremos lo siguiente al enfrentar sus chips GA102 vs AD104:
- Shaders -> 10.752 vs 7.680 (-28,57%)
- Caché L1 -> 10.752 KB vs 7.680 KB (-28,57%)
- Caché L2 -> 6.192 KB vs 49.152 KB (+793,79%)
- Interfaz de memoria (Bus) -> 384 bits vs 192 bits (-50%)
- Velocidad VRAM GDDR6X -> 21 Gbps vs 21 Gbps (0%)
- Tamaño de la VRAM -> 24 GB vs 12 GB (-50%)
- TGP -> 450 vatios vs 280 vatios (-37,77%)
- TFLOPS FP32 -> 40 vs 40,09 (0%)
- Frecuencias Boost: 1.860 MHz vs 2.610 MHz (+40,32%)
Los datos que se filtraron del rendimiento de la RTX 4080 12 GB frente a la RTX 4090 y RTX 3090 Ti van bastante a la par de lo que se ve en FP32, principalmente porque la arquitectura es prácticamente la misma, con cambios mínimos, como ya vimos en el artículo del AD102 en exclusiva. Por lo tanto, con más del 28% de diferencia en Shaders, con un +40,32% más de frecuencia y sobre todo, casi 8 veces más caché L2 la RTX 4080 12 GB consigue igualar el rendimiento del tope de gama anterior de la misma NVIDIA.
Obviamos el consumo por ser dos nodos completamente distintos, pero la masiva caché L2 es un factor muy importante también.
Conclusión
La RTX 4080 12 GB es una tarjeta gráfica muy bien balanceada, muy potente, con un consumo muy ajustado, pero tremendamente cara. El precio se ve arrastrado por el de sus hermanas mayores, pero técnicamente, dada su potencia, está en sintonía con la escala de NVIDIA, otra cosa es que esta sea acorde a lo que se ofrece o no. Ahí cada uno valorará de forma individual.
En cuanto al bus, este ha dejado de ser determinante en favor de la caché L2, y lo será mucho más en el futuro. No se puede evaluar a día de hoy ninguna tarjeta gráfica, sea de AMD o NVIDIA, por interfaz de memoria, porque como hemos visto, teniendo con el ejemplo de la RTX 3090 Ti vs RTX 4080 12 GB, tener un 50% menos de bus (al nivel de una RTX 3060, por ejemplo) no corresponde con el rendimiento de una gama media. Aumentarlo en este caso significa un chip más caro, algo innecesario conforme bajamos de gama.
La tendencia, por lo tanto, será a buses más compactos, como ya tiene la gama RX 6000, así que es muy probable que NVIDIA en las RTX 50 termine usando 256 bits en gama alta para potenciar la eficiencia gastando el mínimo espacio posible en el die y por lo tanto, optimizando el área total en favor de mayor número de Shaders. No vamos a discutir los motivos que ha dado NVIDIA para retirar esta RTX 4080 12 GB del mercado, porque es algo puramente de marketing. Tener dos GPU con el mismo nombre y solamente diferenciadas por la VRAM puede que sí que sea confuso para un usuario neófito en este sector salvo que se especificase muy bien en el embalaje y características.
Quizás hubiese sido mejor denominarla RTX 4070 12 GB, quizás entonces se vería con mejores ojos toda la controversia de la diferencia de Shader y bus de memoria, que como hemos visto, no tiene argumento alguno para la crítica porque el rendimiento y el consumo son los que mandan tras el precio, y ahí NVIDIA había hecho una estupenda gráfica, muy bien balanceada. El problema de llamarla así (RTX 4070) llega con el precio, ¿no se hubiese criticado una RTX xx70 con 12 GB por 900 euros?
Seguramente sí, y quizás de forma más dura. Lo que vamos a obtener a cambio tras la retirada de esta RTX 4080 12 GB es una GPU más lenta y a menor precio, pero NVIDIA dejará un hueco importante ahí si las previsiones de downgrade se cumplen. En cambio, lo que ofrecía esta tarjeta era un rendimiento tremendamente similar a la tope de gama anterior, por 600 euros menos tras su ajuste de precio, mucho menor consumo, menor tamaño y peso, y sí 12 GB menos de VRAM, pero esto no es definitorio ni en 8K actualmente, así que no entra en la ecuación como tal.
Una oportunidad perdida para un producto que no se ha entendido y que esperamos que ahora se vea con mejores ojos tras este análisis de lo que pudo ser y no fue.