Los desarrolladores de Yuzu atizan a NVIDIA: «La RTX 4060 Ti es una inversión terrible»

Ni las RX 7000 ni las RTX 40 han terminado de convencer a todos, siempre ha habido una tarjeta o varias que han levantado ampollas entre los usuarios, sobre todo por temas tan controvertidos como la VRAM o el salto de rendimiento. Pero ahora llegan los desarrolladores de Yuzu, el famoso emulador de Nintendo Switch, y ponen el dedo en la llaga de NVIDIA con su RTX 4060 Ti. Y es que desde Yuzu han calificado a esta RTX 4060 Ti como una inversión terrible. ¿Por qué afirman esto?

Vuelve el eterno debate del bus de memoria y la propia VRAM. El equipo de desarrolladores de Yuzu, posiblemente el emulador de Nintendo Switch más famoso en este momento, ha dejado unas declaraciones que atacan directamente a una de las tarjetas gráficas de NVIDIA, y en general, al concepto que tiene la compañía para con la arquitectura Ada Lovelace.

Yuzu ataca a NVIDIA con su RTX 4060 Ti, su bus y su VRAM

GeForce RTX 4060 Ti vs RTX 2060 SUPER

Son 128 bits y 8 GB de VRAM, algo que en el pasado se podría haber calificado de gama media baja en estas especificaciones ahora es gama media directamente. El motivo ya lo hemos comentado infinidad de veces: la arquitectura premia la nueva Caché L2 de 32 MB para mejorar los tiempos de acceso e impulsar el rendimiento, haciendo menos necesario el bus.

Si bien los 8 GB quedan en suspenso porque este 2023 estamos teniendo unos juegos realmente mal terminados, muy poco optimizados y con unos recursos enormes, además, estos están moviendo el requisito de texturas de la RAM a la VRAM en mayor medida. Esto crea la falsa sensación, en muchos casos, de que estamos faltos de memoria gráfica, y por norma esto no se cumple como tal, puesto que los motores están primando el copar al completo la VRAM para tener que acceder menos a pesadas texturas desde la RAM por el PCIe.

El resultado es que la memoria gráfica esté siempre cerca de su 100% de uso, lo que impulsa el rendimiento y ayuda a mejorar los percentiles como 1% y 0,1%. Pero la media de FPS raramente se resiente más allá de unos pocos FPS, lo que mejora es la sensación de suavidad por la menor caída del framerate, que mejorará más cuanta más VRAM haya disponible. Pero esto se produce en juegos y no en emuladores como tal, entonces, explicado esto, ¿por qué los DEV de Yuzu atacan a NVIDIA?

"Una inversión terrible"

NVIDIA-RTX-4060-Ti-specs-ancho-de-banda-efectivo

En vez de comentar lo que han dicho, vamos a poner directamente el extracto para que cada uno juzgue y luego entramos a explicar algunos detalles:

Ahora, pasemos a las noticias decepcionantes: la RTX 4060 Ti.

No entendemos qué tipo de decisiones tomó NVIDIA al elegir la pila de productos Ada Lovelace GeForce, pero no han sido más que errores. El RTX 4060 Ti de 8 GB con solo un bus de memoria de 128 bits de ancho y GDDR6 como VRAM es una degradación importante para la emulación en comparación con su predecesor, la RTX 3060 Ti de 256 con bits de ancho. Obtendrá un rendimiento más lento en nuestro emulador de Switch si obtiene el producto más nuevo. No tenemos más remedio que aconsejar a los usuarios que se adhieran a los productos Ampere si es posible, o apuntar más alto en la pila de productos si tiene que obtener una tarjeta de la serie 4000 por algún motivo (DLSS 3 o AV1), que es claramente lo que NVIDIA busca...

NVIDIA-rendimiento-caché-L2-RTX-4060-Ti-Ada-Lovelace-2-MB-vs-32-MB

El argumento a favor de Ada es el aumento del tamaño de la memoria caché, que RDNA 2 confirmó en el pasado y ayuda sustancialmente con el rendimiento, pero también tiene una advertencia silenciosa que no menciona ninguna revisión: si saturas la memoria caché, te quedas con el rendimiento de un bus de 128 bits, y es muy fácil saturar el caché cuando se usa el escalador de resolución (Super Sampling): solo 2X es suficiente para colapsar el rendimiento.

Gastar 400 dólares en una tarjeta que tiene un rendimiento terrible fuera de la escala 1X es, en nuestra opinión, una inversión terrible y debe evitarse por completo. Esperamos que la versión de 16 GB al menos venga equipada con GDDR6X como VRAM, lo que aumentaría el ancho de banda disponible y proporcionaría una mejora real en el rendimiento para este tipo de carga de trabajo.

Aquí los DEV de Yuzu tienen su parte de razón en cuanto al hecho de colapsar los 32 MB de L2 de la RTX 4060 Ti, ya que a base de Super Sampling para su emulador no es realmente difícil de hacer, como si se hace en un juego. El problema es que la RTX 4060 Ti, como la RTX 3060 Ti, así como la RX 7600, por ejemplo, son gráficas enfocadas a resolución nativa con tecnologías propias de Super Sampling como son DLSS 3 o FSR 2, no para escalar en un emulador.

El cambio de estrategia de NVIDIA hacia un enfoque más "de AMD"

AMD RX 7600 vs RX 6600 vs RTX 3060 Ti Cache L2 Bandwidth

Lo tratamos en el correspondiente artículo donde se explicaba el rendimiento real y teórico que propone NVIDIA con la RTX 4060 Ti. En los datos que tenemos arriba se ve perfectamente cómo un enfoque de L2 con Infinity Caché de mayor tamaño mejora en rendimiento de la caché frente al enfoque de Ampere sin este cambio.

En cambio, cuando se pasa al lado de la VRAM NVIDIA obtenía mejor rendimiento que AMD. El problema es el que salto de frecuencia y los cambios menores de la arquitectura (artículo adjunto hablando sobre ello aquí) sin contar con el hecho de moverse a una arquitectura MCM, propicia que NVIDIA haya tenido que dar el mismo paso que AMD.

AMD RX 7600 vs RX 6600 vs RTX 3060 Ti Infinity Cache Bandwidth

Si no es una técnica de Super Sampling con IA, como DLSS 3 o DLSS 2, como hace Yuzu, lo que estamos colapsando es, evidentemente, la caché, puesto que es el elemento dentro del chip que más información acumula en general (obviando CP y registros). Una vez superamos el bloque de 32 MB hay que ir a coger la información a la VRAM, y ahí se pierde mucho rendimiento.

Lo que obvian desde Yuzu es el hecho de que si estás colapsando de por sí la Caché L2 de poco te va a servir tener 256 Bits de bus o una VRAM más rápida, porque si el ancho de banda resultante de ambos fuese un problema, entonces no colapsarían, precisamente, la L2, y entonces, solo entonces, podríamos hablar de un problema con el bus y la VRAM. Por lo tanto, como dijimos en su momento, tanto en la RTX 4060 Ti como en la RX 7600 (salvando el problema del CP y registros de esta última, obviamente) son GPU bien balanceadas.

Cualquier juego con Super Sampling se ve beneficiado de un mayor ancho de banda proporcionalmente a una caché

AMD RX 7600 vs RX 6600 vs RTX 3060 Ti VRAM Bandwidth

Es decir, es mucho más sencillo desde el punto de vista del hardware incluir 256 bits frente a 128 bits que 64 MB de L2 frente a 32 MB de L2, sobre todo en costes. Quiero decir, es más sencillo introducir 256 bits que 64 MB de L2, y mucho, muchísimo más barato. ¿Por qué no se hace? Lo hemos explicado de pasada arriba: NVIDIA se mueve a una arquitectura MCM con una menor latencia interna en estas RTX 40, que se aumentará por los chiplets en posteriores.

Dicho esto, otro tema diferente es que para hacer un 2X en Yuzu se necesite más músculo, más caché (las unidades vectoriales y escalares "Tensor" se desprecian aquí) y de paso, más bus y velocidad de VRAM, consecuencias directas de la implementación del desarrollador y el derroche de recursos aun brindándolo el hardware de ambas compañías. Es como esperar que ambas tarjetas rindan en proporción y porcentaje a igual rendimiento en 1080p y 4K. Como vimos, porcentualmente hablando, el rendimiento es peor en la resolución más alta frente a la baja, donde pierden fuelle.

Esto es exactamente igual. Yuzu no aprovecha el hardware ni de NVIDIA ni de AMD como tal para hacer Super Sampling con IA, de manera, que como bien dicen, optar por una RTX 3060 Ti va a dar mejor resultado que usar una RTX 4060 Ti para este menester porque el rendimiento va a poder escalar mejor, y a mejor GPU conseguirá ampliar la diferencia en mayor medida. Pero esto no es que sea un problema de las arquitecturas de NVIDIA y AMD, es un problema de la inoperancia del emulador que no aprovecha como debe el hardware del que dispone para trabajar y hacer su función.

Y el mejor ejemplo es que el ancho de banda efectivo de una RTX 4060 Ti es mayor que el ancho de banda real de una RTX 3060 Ti, y en cambio, esta última, siendo más lenta en general (entre un -10% y un -15%) rinde mejor en Yuzu por lo explicado.