Las GPU AMD RX 7000 tendrán mucha más caché y rendimiento del esperado
Máximo secreto y discreción por parte de AMD, mientras que NVIDIA ya tiene las cartas más o menos sobre la mesa. Cualquier detalle que conocemos sobre las nuevas RX 7000 es oro en paño, porque nos acerca un poco más al hecho de conocer cómo serán y a situar un poco mejor su rendimiento. Por ello, la filtración de hoy es menor, pero tiene un dato muy importante y que seguro gusta a los seguidores del equipo rojo: las RX 7000 tendrán más caché de la esperada y su rendimiento por vatio es superior al que dijo AMD.
De nuevo, un listado en freedesktop.org ha dado con los datos más claros que tenemos hasta la fecha en un apartado tan importante y trascendental como las cachés de las GPU AMD. La Infinity Caché que AMD presentó con las RDNA 2 cobra mayor importancia, pero requiere cambios en la jerarquía y en los tamaños para adaptarse al rendimiento y reducir el cuello de botella. Por lo tanto y siguiendo un camino distinto a NVIDIA en gran parte, AMD ha hecho los siguientes cambios que veremos a continuación.
Una mayor caché en todos los niveles menos en uno, ¿la L2 sigue intacta?
Es un movimiento muy curioso, pero tiene su explicación, aunque antes vamos a ir con los datos concretos. Como vemos, solo hay unas pocas cifras que no se han tocado, en concreto:
- Scalar Register File por SIMD, que se mantiene en 10 KB.
- Scalar L1 Instruction Caché por WGP, la cual se mantiene en 32 KB.
- Scalar L1 Data Caché por WGP en 16 KB.
- Caché L2 de datos por controlador de memoria de 32 bits, que sigue en 512 KB.
Además de esto, hay una puntualización clave, ya que entre Navi 31 y 32 vs Navi 33 el Vector Register File por SIMD se mantiene como en RNDA2 para el menor de los chips y al mismo tiempo, para Phoenix, algo lógico puesto que será el modelo que incluya AMD como iGPU: aquí se mantienen los 128 KB, principalmente porque, en teoría, será un chip monolítico tradicional.
La nueva arquitectura MCM tiene la respuesta
Como ya sabemos, y salvo que AMD cambie la arquitectura en gran medida, hasta ahora cada CU del equipo rojo contaba con dos ALU Vectoriales a modo de SIMD, dos ALU escalares, varios Archivos de Registro Vectoriales, además de Archivos de Registro Escalares, un recurso compartido de datos de forma local y por supuesto, 40 wavefrom slots y la memoria local y Global como cómputo general.
A esto habría que sumarle la memoria escalar y las conexiones de datos e instrucciones de caché como tal, lo que nos da en gran medida la información que tenemos arriba desgranada. Lo primero que debemos comprender es que una GPU en cuanto a instrucciones se divide entre escalares y vectoriales, y aunque hay otras añadidas, las importantes y más costosas de trabajar entran dentro de estos dos grupos.
¿Por qué AMD mantiene los 10 KB en RDNA 3? Entendemos que el Wavefront no ha sido modificado y que por tanto se les va a dar más prioridad a las instrucciones Vectoriales, que se ejecutarán en cada elemento de trabajo que se disponga. Debido a esto, el SRF volverá a funcionar registrando el flujo de control en los 800 registros de 32 bits que tiene por SIMD.
Los Archivo de registros Vectoriales pasan a 192 KB por una sencilla razón: el ancho de banda coincide con el tamaño del wavefront, y al poder realizar lectura y escritura en el mismo ciclo lo que se intenta es paliar la latencia que tendrán, en teoría, los núcleos alejados del IOD. Por ello, el incremento viene a decir de forma indirecta que habrá mucho más trabajo por hacer y posiblemente, esto se deba a las nuevas unidades de segunda generación para Ray Tracing.
Por ello, la caché L0 en Vectores y Texturas se duplica, y aunque no sabemos los cambios pertinentes todavía, sí que se confirma el uso de instrucciones VODP (Dual-Issue Wave32), así como WMMA (Wave Matrix Multiply-Accumulate). Esto es un salto cualitativo como tal, puesto que hasta ahora cada cuatro SIMD podían ejecutar una Wave32, dando un rendimiento de 256 FLOPS de precisión simple por ciclo, algo que no se había cambiado desde RDNA como tal.
Además, WMMA también necesita de unos mayores Archivos de Registro para Vectores, puesto que operará con matrices como hacen las arquitecturas CDNA, con la diferencia de que estas unidades están pensadas en este caso para acelerar, casi con total seguridad, el rendimiento con FSR 2.0.
AMD RX 7000 y su caché L1 Scalar, ¿sin modificaciones de tamaño?
Lo que no se entiende demasiado bien es el hecho de mantener el mismo tamaño de Scalar L1 en datos e instrucciones por WGP en 32 KB y 16 KB, pero en cambio, se duplica la caché de datos gráficos L1 por Shader Array desde los 128 KB hasta los 256 KB.
Lo que podemos intuir es que AMD pretende acelerar las instrucciones de vectores manteniendo un rendimiento escalar más o menos igualitario, y por ello, esta L1 de datos gráficos de mayor tamaño, posiblemente el siguiente paso para mejorar el rendimiento en Ray Tracing con algoritmos BVH.
Por último, la L2 se sigue manteniendo en 512 KB por cada MC. Esto parece deberse al aumento de la Infinity Caché, así que parece que esta tomará mayor protagonismo a partir de ahora. ¿Qué conclusiones podemos extraer de todo lo dicho? En primer lugar, estos cambios no están solo pensados para aumentar el rendimiento en las instrucciones vectoriales, sino que se intenta al mismo tiempo aumentar la eficiencia.
No conocemos obviamente los cambios de la arquitectura, pero tienen que ser realmente grandes cuando tienes que duplicar la L1 de datos gráficos y la L0 para texturas y vectores. Por lo tanto y según los rumores, ese 50% de más en rendimiento por vatio puede que termine siendo mayor, porque como pasa en Raptor Lake, unas mayores cachés implican una reducción del consumo y por norma general, que un incremento de frecuencia va ligado a ellos.
Puede que AMD de la sorpresa, porque muchos están pensando que NVIDIA lo tiene todo hecho y ganado y... Puede que las AMD RX 7000 gracias a su caché (y otras muchas mejoras obviamente) se postulen mucho más cerca de lo que creemos, sobre todo teniendo en cuenta que una arquitectura MCM es mucho más eficiente, más barata de fabricar y sobre todo, consigue mucho mejor consumo/frecuencia.