NVIDIA explica por qué sus GPU RTX 40 tienen menos bus y memoria VRAM

Sin duda ha sido uno de los aspectos más criticados de las nuevas GPU de NVIDIA, mucho más en la gama media que acaba de ser presentada con las RTX 4060 y RTX 4060 Ti. Las críticas no pasan desapercibidas para los fabricantes, os leen, como siempre hemos dicho, y debido a la controversia generada con los 128 bits de bus y 8 GB de VRAM, NVIDIA ha ofrecido una respuesta técnica sobre los motivos de esta implementación en todas sus RTX 40, en especial a las comentadas RTX 4060 y Ti. ¿Son suficientes en pleno 2023?

El artículo es interesante sin duda, y refuta todo lo que hemos ido diciendo en los últimos 9 meses desde que las especificaciones se confirmaron mediante filtraciones. Por ello, mucho de lo que vais a leer os sonará, pero será igualmente interesante, porque el enfoque de NVIDIA es particular, así que dicho esto y como siempre decimos, "al lío".

NVIDIA explica la importancia de la caché y su bus

NVIDIA-RTX-4060-Ti

Vamos a obviar cosas tan trilladas como qué es la VRAM o qué es la memoria caché, se dan por supuestos dado el machaque continuo sobre el tema, y más en las RTX 40. Por ello, simplemente hay que saber que el acceso a los datos de un juego se hacen a diferentes velocidades donde se implican todos los componentes del PC, y esto es determinante para todo el argumento de NVIDIA.

Comenzando por la caché, esta se ubica en sus diferentes niveles siempre cerca de los núcleos (Shaders). El acceso a ellas es determinante, puesto que los datos que estén almacenados en cualquier nivel de dicha caché evita tener que acceder a la VRAM y con ello, se reduce la latencia final, se aumenta el rendimiento de la GPU y se evita importar datos de la RAM.

NVIDIA dice que la L1 ahora es más cercana y es más rápida, que al igual que la L2, reduce la latencia. Esta última, la L2, ha incrementado su tamaño en varias unidades, y además, también incurre en una mayor velocidad.

NVIDIA-Memory-Subsystem-caché-Hit-Caché-miss-VRAM

Lo que los verdes han logrado es reducir lo que se conoce en la industria como Latency Hit o Caché Hit (dependiendo de quién lo nombre y para qué). Este se produce cuando se gana tiempo (latencia) no teniendo que salir del chip. Es decir, una mayor capacidad implica un aumento de rendimiento porque se reduce el Caché Hit general de la tarjeta gráfica.

Además, como siempre hemos dicho, esto es un beneficio no solo para el rendimiento, sino para la eficiencia, que también aumenta reduciendo el consumo. Aquí añadimos que incluir más caché implica un mayor coste en el chip, bastante mayor, puesto que esta área SRAM es extremadamente cara.

¿Cómo se usan los datos dentro de la GPU?

NVIDIA-Memory-Subsystem-Ada-Lovelace-caché-Hit-Caché-miss-VRAM-GPU

Es otro aspecto que hemos tratado bastante, pero NVIDIA ofrece su visión sobre la arquitectura Ada Lovelace, que no difiere mucho de cualquier otra arquitectura realmente. Cuando una GPU necesita trabajar un dato, lo primero que hace es ir a buscarlo a la L1D, la cual está dentro de cada SM, pero si no los encuentra, entonces tiene que acceder a la L2.

La ausencia de ellos en la L2 se denomina como Caché Miss (lo opuesto al Caché Hit) por la propia NVIDIA, y cuando esto pasa, solo queda ir a buscarlos a la VRAM. En caso de que esto tampoco sea satisfactorio, se generará una latencia extrema, ya que se tiene que enviar la orden a la CPU para ver si, efectivamente, los datos están en la RAM del sistema.

Luego se comprueba si están trabajados por la CPU para importarlos, y en el caso extremo de que no lo estén, entonces se generará una latencia demasiado amplia, que repercutirá en el rendimiento de forma directa, cosa rara a día de hoy y por suerte.

Y es que la CPU coge los datos del SSD o HDD, los trabajará y los mandará a la VRAM (si los necesita ya, si no, a la RAM). DirectStorage tiene mucho que decir, pues suprimimos aquí el paso de la CPU, pero las texturas tienen que descomprimirse en la GPU. Llegada la información a la VRAM, esta recorre el camino inverso hasta los SM. Comprendido esto, no solamente tiene un impacto en el rendimiento de forma directa, sino en el consumo del equipo en general, y por supuesto, de la GPU.

Hasta 16 veces más caché L2 en comparación con Ampere y 128 bits

NVIDIA-rendimiento-caché-L2-RTX-4060-Ti-Ada-Lovelace-2-MB-vs-32-MB

Como ya dijimos en el artículo de la arquitectura del AD102, máximo exponente en gaming de Ada Lovelace, la reducción del bus es un buen arma contra el consumo para, de paso, mejorar el rendimiento. Todas las GPU que ha lanzado NVIDIA están perfectamente balanceadas en prestaciones, principalmente porque la caché L2 cambia el juego.

Los de Huang han implementado con un bus de 128 bits un aumento de x16 en este componente clave (L2) dentro del chip. Es decir, logran reducir el Caché Miss considerablemente. En concreto, NVIDIA ha mostrado las diferencias entre los 2 MB de L2 de una hipotética RTX 4060 Ti frente a los 32 MB de la RTX 4060 Ti original, y como se puede ver, el tráfico por frame a trabajar se ha reducido casi en un 50% de media, lo que implica un rendimiento mucho mayor.

En concreto, en rasterización pura, el aumento a misma cantidad de shaders y bus supone un incremento del 18%, con Ray Tracing escala al +25% y con DLSS 3 casi hasta el +35%, solo con el aumento de tamaño de un elemento dentro del chip. Ni que decir tiene que compararlo con Ampere a mismos Shaders, y bus con sus respectivas cachés y tamaños nos daría una diferencia muchísimo más grande a favor de Ada Lovelace.

Dicho esto, queremos hacer un inciso, puesto que tenemos que nombrar también al hecho de que NVIDIA SER para Ray Tracing dispara el rendimiento entre arquitecturas, así que es posible que en este apartado de trazado de rayos las diferencias a "igualdad" de condiciones fuesen más grandes todavía.

Volviendo a lo que nos interesa en este artículo, ¿qué ventajas tiene lo dicho frente a un bus mayor? Pues que puedes reducir el número de controladores de VRAM, aprovechando el espacio físico en el die para la mayor caché L2 y logrando que el ancho de banda resultante para la memoria en general sea el doble de eficiente. NVIDIA da un ejemplo claro sobre esto:

Una GPU Ada con 288 GB/s de ancho de banda de memoria tendría un rendimiento similar a una GPU Ampere con 554 GB/s de ancho de banda de memoria. En una variedad de juegos y pruebas sintéticas, las tasas de aciertos (evitando el Caché Miss) mucho mayores mejoran las tasas de fotogramas hasta en un 34 %.

El bus de memoria respecto a la VRAM en RTX 40

NVIDIA-RTX-4060-Ti-specs-ancho-de-banda-efectivo-rtx-40-bus-vram

Aunque hemos insistido por activa y por pasiva con que el bus de datos no es definitorio de rendimiento, o de cuello de botella, más si cabe con lo que NVIDIA ha mostrado en cuanto al rendimiento de la caché y los 128 bits, toca dejarlo claro de una vez por todas. Hasta AMD está siguiendo esta tendencia, y no les va mal precisamente en rendimiento y vatio por frame. Los verdes son muy taxativos aquí, afirmando que "el ancho del bus por sí mismo no es un indicador suficiente del rendimiento del subsistema de memoria".

Esto es importante si tenemos en cuenta que "históricamente, el ancho del bus de memoria se ha utilizado como una métrica importante para determinar la clase de velocidad y rendimiento de una nueva GPU", pero claro, como bien se ha dicho, esto no es un indicador del rendimiento de la tarjeta, ni siquiera del subsistema de memoria. En otras palabras, es solo una parte pequeña del mismo, que como hemos dicho siempre, lo que importa es la potencia del chip y el equilibrio con bus, cachés y velocidad de la VRAM, mención especial a OFA.

NVIDIA Optical Flow Accelerator (OFA) tiene un valor importante en este punto que tocamos, pues es un acelerador de hardware destinado para calcular el flujo óptico y la disparidad estéreo entre los fotogramas, es decir, es una tecnología para acelerar el hardware en las cargas que requieren detección y seguimiento de cualquier objeto en el juego, así como para calcula la profundidad. Esto consume muchos recursos y su ayuda en las RTX 40 es una gran ventaja, porque reduce las necesidades de ancho de banda y, por lo tanto, del bus.

A raíz de esto, NVIDIA enlaza con la cantidad de VRAM, otro tema controvertido como pocos tras todos los fiascos que hemos ido viendo, en cuanto a optimización, con los últimos juegos lanzados al mercado, los cuales eran muy esperados.

La cantidad de VRAM depende de cómo se haya diseñado la arquitectura de la GPU

Comparativa-NVIDIA-RTX-40-especificaciones-y-características

Sí, de nuevo, otro tema hablado hasta la saciedad, así que damos paso a NVIDIA para que ofrezca literalmente sus argumentos:

Los jugadores a menudo se preguntan por qué una tarjeta gráfica tiene cierta cantidad de VRAM. La memoria GDDR6X y GDDR6 de la generación actual se suministra en densidades de 8 GB (1 GB de datos) y 16 Gb (2 GB de datos) por chip. Cada chip utiliza dos canales separados de 16 bits para conectarse a un único controlador de memoria Ada de 32 bits. Entonces, una GPU de 128 bits puede admitir 4 chips de memoria y una GPU de 384 bits puede admitir 12 chips (calculados como el ancho del bus dividido por 32). Los chips de mayor capacidad son más costosos de fabricar, por lo que se requiere un equilibrio para optimizar los precios.

En nuestras nuevas GPU GeForce RTX 4060 Ti con un bus de memoria de 128 bits, el modelo de 8 GB usa cuatro chips de memoria GDDR6 de 16 Gb y el modelo de 16 GB usa ocho chips de 16 Gb. No es posible mezclar densidades, impidiendo la creación de un modelo de 12 GB, por ejemplo. Por eso también la GeForce RTX 4060 Ti tiene una opción con más memoria (16 GB) que las GeForce RTX 4070 Ti y 4070, que tienen interfaces de memoria de 192 bits y por tanto 12 GB de VRAM.

Nuestras GPU de clase 60 se han diseñado cuidadosamente para ofrecer la combinación óptima de rendimiento, precio y eficiencia energética, por lo que elegimos una interfaz de memoria de 128 bits. En resumen, las GPU de mayor capacidad con el mismo ancho de bus siempre tienen el doble de memoria.

¿Por qué no se pueden mezclar distintas densidades de VRAM en una misma GPU?

GPU-VRAM-distintas-densidades-tamaños-capacidad

Aquí muchos se estarán preguntando los motivos por los que NVIDIA afirma que no se pueden mezclar densidades. Bueno, solo un ejemplo aproximado que fue muy sonado: GTX 970 3,5 GB. Los más veteranos lo recordarán perfectamente.

Resumiendo el caso, NVIDIA segmentó los 4 GB de VRAM en 3,5 GB + 0,5 GB, donde un GPC no tenía acceso a la L2 y mataba el rendimiento al sobrecargar al anexo a este. Volviendo al presente, incluir distinta densidad de VRAM requiere que los controladores de memoria se asignen correctamente dependiendo de los módulos a escoger entre 1 GB o 2 GB, por lo que habría que segmentar una vez más si la configuración de SM no es óptima. Eso teniendo el mismo bus y la misma velocidad de VRAM, así que NVIDIA hace lo correcto aquí para no repetir lo vivido con la GTX 970.

Asignación de VRAM y lectura del software en Windows

MSI Afterburner 4.4.0 Beta 11

Todos usamos algún software para leer los datos en tiempo real de nuestro PC, sobre todo de nuestra GPU, pues bien, NVIDIA ha querido referirse a esto para calmar un poco los ánimos y que no cunda el pánico ante lo que hemos comentado de los juegos y su optimización al principio del artículo:

Los jugadores a menudo citan el "uso de VRAM" en las herramientas de medición de rendimiento de visualización en pantalla (OSD). Pero este número no es del todo exacto, ya que todos los juegos y motores de juegos funcionan de manera diferente. En la mayoría de los casos, un juego asignará VRAM por sí mismo y le dirá a su sistema: "Lo quiero en caso de que lo necesite". Pero el hecho de que se contenga en la VRAM no significa que realmente la necesite toda. De hecho, los juegos a menudo solicitarán más memoria si está disponible.

Debido a la forma en que funciona la memoria, es imposible saber con precisión qué se está utilizando activamente a menos que seas el desarrollador del juego con acceso a las herramientas de desarrollo. Algunos juegos ofrecen una guía en el menú de opciones (la típica barra que nos dice cuánto va a consumir el juego con X settings) pero incluso eso no siempre es preciso.

Además, el comportamiento de los juegos puede variar cuando la VRAM se utiliza realmente al máximo. En algunos, la memoria se purga, lo que provoca un notable problema de rendimiento, mientras que la escena actual se vuelve a cargar en la memoria. En otros, solo se cargarán y descargarán datos seleccionados, sin ningún impacto visible. Y, en algunos casos, los nuevos activos pueden cargarse más lentamente, ya que ahora se obtienen desde la RAM del sistema.

Para los jugadores, jugar es la única forma de determinar verdaderamente el comportamiento de un juego. Además, los jugadores pueden ver las mediciones de velocidad de fotogramas "1% Low", lo que puede ayudar a analizar la experiencia de juego real. La métrica 1% Low, que se encuentra en la superposición de rendimiento (Overlay) y los registros de la aplicación gratuita NVIDIA FrameView , así como en otras herramientas de medición populares, mide el promedio del 1% más lento de los Frames durante un período de tiempo determinado.

En definitiva, que un juego ocupe toda la VRAM de la GPU no significa que la esté usando, y como también hemos dicho infinidad de veces, no existe, por norma general, cuello de botella por cantidad de memoria en la actualidad. El mejor ejemplo es el rendimiento que se consigue en todas las GPU y cómo los motores se adaptan a la cantidad que tenga nuestra tarjeta.

Más VRAM y más precio, o menor VRAM, más optimización por software y GPU más barata

NVIDIA AD104

Dicho esto, sí que puede haber problemas por una cantidad insuficiente, pero sin llegar a ser un cuello de botella (rendimiento nefasto continuado). Podemos tener stuttering, lag acusado o incluso saltos de escena en los casos más severos, como los que hemos explicado en el apartado de la caché. No llega a ser un cuello de botella como tal, porque estos casos apenas se dan, pero sí que es un problema puntual que se soluciona bajando ciertos settings.

Por ello, y dada la "mala praxis" de los desarrolladores (muchos no pueden hacer más por cumplir plazos, seamos razonables con su presión) y su implementación del motor en el juego, NVIDIA trabaja en tecnologías de compresión de texturas para paliar o eliminar esos problemas. Esto no es una solución como tal, solo una medida paliativa. La opción más interesante sería tener VRAM por doquier, pero entonces el equilibrio de la tarjeta en cuanto al precio se vence a un mayor coste, y dado que los precios es el principal factor de descontento de esta generación por encima del rendimiento (por primera vez en la historia, y esperemos que última) NVIDIA tiene que recurrir a este tipo de técnicas. Principalmente porque no puede competir con AMD en costes finales.

Y es que el diseño de NVIDIA, el nodo, el I+D de desarrollo en todos los campos y la cantidad y calidad de los materiales y componentes usados en sus tarjetas elevan el precio final de las mismas. No vamos a obviar tampoco el hecho de que NVIDIA cobra de más por ser NVIDIA. El mejor ejemplo lo tenemos en el hecho que veíamos hace unos días, donde los verdes venden menos GPU que los rojos, pero tienen más beneficios en total. Por lo tanto, es un juego donde NVIDIA siempre tiene que salir en positivo (como AMD), y como hablamos hace una semana, es más factible desarrollar una tecnología de compresión de memoria ante la nula optimización de los desarrolladores que añadir a toda GPU el doble de VRAM. El coste es menor tanto para el cliente como para la empresa.

Solo hay que ver lo que ha pasado entre la RTX 4060 Ti 8 GB y su versión de 16 GB siendo la misma tarjeta en sí (449 euros vs 559 euros).

Conclusiones finales de las RTX 40, su bus y VRAM

NVIDIA-RTX-4090-RTX-4080-RTX-4070-RTX-4060-Ti

Para finalizar, el informe de NVIDIA solo confirma lo que veníamos diciendo con los análisis de sus arquitecturas en nuestros artículos. Como bien se decía por los comentarios en estos últimos días, el diseño de cada chip no tiene en cuenta en primer lugar el bus final, este es un añadido que se cuadrará después, como un paso casi final, tras el conteo de unidades mínimas y el balance de la caché, es un todo.

Cuando se diseña se cuenta con las latencias internas que se van a generar, incluso con las distancias entre los componentes del chip, entre cientos de cosas. El ancho de banda resultante tampoco es definitorio del rendimiento, es una necesidad por las prestaciones de las unidades mínimas implementadas y su conteo total. En otras palabras, se necesita potencia para mantener el tipo conforme se sube la resolución y con ello el número de píxeles a trabajar.

NVIDIA-AD102-SM-Ada-Lovelace

Si no hay capacidad de cómputo suficiente, el bus y el ancho de banda no van a paliar esto, ellos son una consecuencia del número de SM o CU, así como de la arquitectura y caché, no al revés.

Con esto, esperamos que todo se haya comprendido todo lo relacionado con las RTX 40, su bus y VRAM, y que el hecho de que tenga mayor o menor bus, así como más ancho de banda, o menos, no sea algo por lo que rechazar a una GPU o a una arquitectura, puesto que tanto AMD como NVIDIA van hacia esta tendencia, hacia un menor bus salvando el ancho de banda necesario para cada chip gracias a que las cachés están evolucionando en velocidad, latencia y tamaño, algo que seguiremos viendo en las siguientes generaciones.