Así es AMD Zen 5 por dentro: su primer die shot revela todos los misterios de la organización de la arquitectura en los Ryzen 9000

Zen 5 como arquitectura no comenzó bien. Lo que debía haber sido un lanzamiento increíble con mejoras realmente destacables comenzó siendo el peor de la historia de AMD, con unas diferencias de rendimiento mínimas a costa de una mejor eficiencia. Por suerte, las cosas se han reconducido, los problemas se han ido solucionando y, aunque no cumplió con las expectativas, se ha acercado. Ahora tenemos algo más, las primeras imágenes del die shot de un Ryzen 9000 Zen 5, donde se puede ver los importantes cambios en la arquitectura desde dentro.

De nuevo Fritzchens Fritz a la carga desde Flickr, donde ha subido las imágenes más espectaculares de un Ryzen 9000, para además, mostrarnos su arquitectura interna a nivel de silicio, algo de lo que se ha encargado Nemez y que vamos a desgranar ahora un poco más para comprender qué ha hecho AMD con esta nueva entrega de sus procesadores de escritorio.

AMD Ryzen 9000 Zen 5, las primeras imágenes del die shot revela algo hecho desde cero

AMD-Ryzen-9000-die-shot-imagen-desgradada-CPU

Y de una forma impresionante. Es otra muestra de cómo un trabajo brillante, por desgracia, no siempre se ve plasmado como una mejora de rendimiento a la altura y solo pone de manifiesto lo complicado que se está volviendo el escalar a cifras de dos dígitos "amplias".

AMD-Zen-5-IOD-Die-Shot-imagen

Dado que el IOD es exactamente igual que en Zen 4 (de hecho, es el mismo punto por punto) lo omitiremos, puesto que ya lo vimos en la arquitectura anterior, y nos centraremos en el CCD/Core, que es lo realmente importante y donde están los cambios.

Tomaremos de izquierda a derecha y por colores para que sea más sencillo de seguir el argumento, luego entenderéis el porqué de hacerlo así.

AMD-Zen-5-die-shot-núcleo-Core

En naranja claro tenemos los nuevos Vectores de ejecución (Vector Execution Scheduling) los cuales como sabemos son las unidades encargadas de gestionar las instrucciones SIMD para las matemáticas complejas. Como vemos, tenemos cuatro motores FADD (Floating Point Addiction) + FMAC (Floating Multiply-Acumulate) de 256 bits, lo que supone poder sumar y multiplicar FP.

Teniendo en cuenta y como sabemos ya de antemano, el Vector Rename es de tipo 6-Wide y cada Scheduling tiene 32 entradas. Por todo lo dicho, AMD ha tenido que usar Registros Vectoriales (Vector Regfile) de 512 bits para poder almacenar la gran cantidad de datos y cálculos de FADD y FMAC, de ahí el soporte para AVX-512.

Como vemos, esta área a la izquierda ocupa prácticamente un cuarto de todo el CCD, maravillosamente implementado hay que añadir.

Interconexión y flujo de datos muy bien pensado

Parte-central-núcleo-Zen-5

¿Por qué? Pues porque tenemos justamente al lado y en rojo la L1D, ahora con 48 KB. Sabiendo que es la caché que va a evitar accesos lentos a la memoria RAM y que va a intercambiar gran cantidad de ellos con la unidad de enteros, la arquitectura aquí es simplemente fantástica.

Justo debajo de la L1D tenemos los Integer Execution e Integer Regfile, los cuales ejecutarán toda la aritmética y lógica para enteros, todo lo dicho conectado por un Scheduling que también toca una parte que hemos visto bastante en Zen 5 y que este die shot muestra muy bien: el Branch Predictor.

Hemos hablado mucho, así que nos centraremos en comentar el hecho de que AMD lo ha rodeado de la L1 BTB y la L2 BTB (Branch Target Buffer). Vista el área que ocupan se ve un salto cualitativo aquí, como era de esperar dado el doble Decoder frente a Zen 4.

AMD-Zen-5-vs-Zen-4-arquitectura

Esto mejorará la predicción de las bifurcaciones y reducirá los MISS, logrando un rendimiento mucho más optimizado en dichas estructuras de predicción.

Lógicamente, tenemos que pasar, en amarillo, al Instruction Fetch and Decode, que no es más que la unidad responsable de obtener todas las instrucciones desde la memoria para decodificarlas y mandarlas a ejecutar. Mención especial aquí a la Microcode Cache, que es mayor (6K) lo que permite almacenar más microinstrucciones a nivel de microcódigo, el cual está justamente a su lado en morado, estando también conectado con el Fetch and Decode. Simplemente magistral.

La SRAM Mystery no sabemos exactamente qué es, pero parece una especie de caché de instrucciones simple. Para cerrar este bloque e ir al último, tenemos dentro del Fetch and Decode la L1I de 32 KB y la L2 iTLB. Teniendo en cuenta que el flujo de trabajo en Front End es el siguiente:

  • Branch Predictor -> L1 BTB -> L2 BTB -> iTLB y dTLB en L1 y L2 -> L1I (o L2D si falla L1I) -> Decoder (si es necesario) y Microcode (instrucciones complejas) -> Load/Store si hay operaciones en memoria -> Execution Units

Solo queda quitarse el sombrero y aplaudir, pero esto no termina aquí. Lógicamente queda el acceso a la L2 y de ahí a la L3 que es compartida entre los núcleos y divide en dos grupos de 3 o de 4 a estos dependiendo de si es un six Core o un octa Core (9600X o 9700X).

La L2 queda totalmente pegada con la L3, reduciendo la latencia

Cache-L2-y-CPL-Zen-5

Como era de esperar, AMD ha dispuesto la L2 lo más cerca que ha podido de la L3, por dos motivos: menor latencia y menor consumo. La caché L2 está dividida en dos bloques por el L2 Control and Interconnect, el cual es la memoria lógica que controla tanto los accesos a dicha caché como la interconexión con el resto de partes que ya hemos desgranado de la CPU.

Digamos que es el vigilante que controla quién entra y sale, pero también de dónde viene la información y a dónde va. El hecho de que el bloque de la L2 esté dividido en dos tiene mucho que ver con la L2 Tags, la cual se encarga de almacenar dichos Tag para repartirlos entre los dos bloques según la L2C y L2I le digan.

Por último y ya cerrando el núcleo en este die shot de Zen 5 tenemos el CPL, o Chip Preservative Logic, gestionar la energía del chip y proteger su integridad física y funcionamiento a lo largo del tiempo. Esta lógica cumple un papel fundamental en la gestión del consumo energético, la eficiencia térmica y la durabilidad de los componentes del procesador. Junto a él, que está abajo a la izquierda y en verde, tenemos un apartado en rojo que es otra SRAM lógica de control, aunque no está especificada como tal.

El CCD al completo revela el resto de unidades de este Zen 5 die shot

AMD-Zen-5-CCD-completo-Die-Shot

Saliendo del núcleo como tal, vemos la L3 de 32 MB compartida y accesible por todos los Cores, donde volvemos a incidir en el hecho de que la disposición de cada uno de ellos es sublime. Además, es mucho más compacta que en Zen 4, donde para la misma área total del CCD se ha tenido que reducir casi un tercio, debido principalmente a la inclusión y aumento de tamaño de FADD y FMAC, pero sobre todo del resto de unidades, obviando la L2 y CPL.

Hay que tener en cuenta que la SRAM apenas ha escalado en densidad entre N5P y N4P, así que es otro gran trabajo de AMD, que ha hecho el CCD más cuadrado frente al de Zen 4 para optimizar mejor el área total del mismo. Dicho esto, tenemos en verde y abajo el SMU, la gestión de energía y el I/O Interconnect.

Como sabemos, esta parte es actualizable mediante el firmware de la placa base y microcódigo AGESA, y es la que regula la entrega de energía para los núcleos y caché, así como la interconexión de los distintos CCD.

Más abajo queda el IFOP PHY, o Infinity Fabric over Package, el cual es doble y realmente no sería necesario si no fuese porque esta es otra muestra, junto con los FADD y FMAC, de que Zen 5 es una arquitectura enfocada más hacia la IA y servidores, que hacia escritorio y gaming. Estas unidades se encargan de conectar el CCD con otros CCD y con el IOD. Lógicamente en escritorio uno de ello se puede deshabilitar y ahorrar energía, ya que no es necesario, pero en servidores sí que lo es y depende de su inclusión el rendimiento de los futuros EPYC Turin.

AMD-Zen-3-vs-Zen-4-vs-Zen-5-die-shot-comparativa-núcleos-Cores-arquitectura

De hecho, el IOD incluye otros dos IFOP por el mismo motivo. Y hasta aquí la disección de un núcleo de la arquitectura Zen 5 y su die shot, que como vemos, sí que está hecha totalmente desde cero, y es una mejora más que ostensible, una obra de ingeniería, una Master Piece que si la comparamos con Zen 3 y Zen 4 (arriba mostradas) veremos un trabajo exquisito de los ingenieros de AMD.