AMD Ryzen 7000 con arquitectura Zen 4, esto es todo lo que debes saber
Es posible que la presentación de AMD de ayer no te haya bastado, es posible que el hype esté llevándote ahora mismo por unas nubes con olor a silicio y entre tanto estás sentado en tu escritorio jugando a más FPS. Pues si eres de esos que quieren más, que quieren saber todo lo que se ha movido entre bambalinas y nadie ha contado de forma oficial por el momento, entonces quédate a ver los Ryzen 7000 al detalle, con su arquitectura AMD Zen 4, nodo y transistores, porque esto te interesa.
Al momento de escribir este artículo no es que se haya filtrado mucha información frente a lo que se dijo ayer, pero sí que podemos tirar del hilo y recapitular todo lo dicho fuera del evento para poner un poco más de luz a estos procesadores y entender los porqués del rendimiento, al menos en parte y hasta que salga el Whitepaper de Zen 4, donde trataremos todos los detalles en profundidad. Dicho esto, comencemos.
Ryzen 7000 y su arquitectura AMD Zen 4, ¿qué sabemos de ella?
Es el apartado donde más especulación hay y, por lo tanto, menos datos disponibles tenemos. Ayer AMD ya deslizó lo que veníamos comentando en ciertos artículos desde hace casi dos meses: hay una remodelación muy importante en el Front End que dispara el rendimiento.
En la diapositiva no da porcentajes sobre cuánto representa cada mejora en concreto de ese 13% global de mayor IPC frente a Zen 3, pero sí que podemos hacer unas aproximaciones al respecto.
Las mejoras en el Front End son casi el 40% de ese porcentaje general, dejando más o menos un 20% a los cambios introducidos en las unidades Load/Store. Un 16% iría al Brach Prediction, mientras que los Motores de Ejecución y la nueva caché L2 serían un 12% cada una. Números aproximados aparte, está claro que los cambios son muy profundos y que el camino escogido es, en cuanto a arquitectura, totalmente contrario a su gran rival.
Esto choca frontalmente con el CPUID de Zen 4, ya que sus procesadores irán marcados con la familia 19h, o lo que es igual, esta arquitectura es una mejora incremental de la anterior. Para entender esto hay que comprender el método de proceder de AMD aquí, puesto que los diseños de las CPU son modulares y simplemente se llega a un punto donde Lisa Su y su equipo fijan un GAP de tiempo y el diseño se cierra cuando ese periodo termina.
Es entonces cuando se recopilan las mejoras y actualizaciones de distintas partes del procesador y según el organigrama de actualizaciones internas que tienen se intenta poner el máximo de prestaciones en una misma microarquitectura.
Cuadrarlo es la aventura, porque hay áreas que pueden haber avanzado más que otras, equipos que han conseguido empujar más que otros, y, por lo tanto, con todo sobre la mesa, se diseña la arquitectura así como los procesadores.
Por supuesto, hay un Roadmap general que cumplir, de ahí estos diseños, pero básicamente así es como funciona AMD en la actualidad, el resto es confidencial por supuesto.
A esto hay que sumarle las mejoras en el nodo que tenga disponible, en este caso, TSMC, porque como vamos a ver a continuación, gran parte de la solución que finalmente se pone a la venta la tienen los taiwaneses por razones obvias.
TSMC 5 nm, la apuesta segura de AMD
No nos detendremos mucho aquí, pero sí que tenemos que nombrar algunas de las bondades del nodo. Comenzamos con los transistores, ya que este proceso litográfico sigue trayendo FinFET, pero la novedad está en que es la segunda generación de la tecnología EUV (la primera fueron los 7 nm).
En términos generales, TSMC ha conseguido un 20% más de rendimiento, una reducción del consumo del 40% y una densidad de 137,6 MTr/mm2 (185,46 MTr/mm2 en su versión HD). No sabemos si esta versión es la original que monta Apple en sus chips M1 y M2, porque se ha especulado mucho sobre si es la versión LV (Low Voltage) o la HP (High Performance), pero sí que sabemos que AMD monta esta última.
Igualmente, la controversia aquí sigue, porque hablamos de un N5 ¿o del nuevo N5P? En principio es el primero, sobre todo mirando la hoja de ruta de AMD, ya que no parece que vayan a usar el N5P y que, en cambio, pasarán directamente a los 4 nm, una versión más avanzada de los actuales 5 nm.
Esto implica según lo que hemos podido saber hasta ahora, que los CCD pasen de 83,736 mm2 de área a unos más óptimos 70,8 mm2, mientras que el IOD pasa de 124,94 mm2 en Zen 3 a 124,7 mm2 en Zen 4, lo cual es realmente impresionante. Hay que decir también que los mayores requerimientos de consumo y energía han requerido una serie de SMD de control mucho mayores y que por ello, los CCD ahora están unidos en su soldadura, dejando mayor espacio en el PCB para el control de energía.
Entendido esto, los nuevos CCD están fabricados en el nodo N5, donde el nombre en clave ha sido denominado como Durango. Los Cores que incluyen, en concreto hasta un máximo de 8, están denominados como Persephone y cada CCD va a tener la casuística de contar con un máximo de 8 MB de L2 y 32 MB de L3. Esto da vida a las configuraciones de CPU que vimos ayer, donde usa uno o dos CCD (Core Complex Die).
Pues bien, cada uno de estos CCD tiene muchos más millones de transistores que los que vimos en Zen 3 gracias al nodo N5 de TSMC. En concreto, un 58% más de transistores (6,57 billones). Esto es importante, porque uno de los cambios más significativos en cuanto a área total es el de la memoria caché, que pasa de 0,5 MB a 1 MB en L2, lo cual es necesario por los cambios sufridos en el Front End para incrementar el rendimiento.
¿Por qué centrarse en el Front End en Zen 4?
Pues hay varios motivos, no tenemos los datos al completo, pero sí que sabemos que los Ryzen 7000 vendrán con AVX-512. AMD va con retraso aquí y comparativamente hablando es una primera revisión de estas instrucciones vectoriales que serán usadas para muchos propósitos, entre ellos tareas de IA.
El problema es que no disponen de la versión F de estas AVX-512, también llamadas AVX512-VP2INTERSECT. Estas instrucciones fueron añadidas en la arquitectura Intel Tiger Lake y por lo tanto son más avanzadas que las que implementa AMD en Zen 4, pero igualmente, y aunque no sean esta variante, los de Lisa Su las necesitan para acelerar las intersecciones entre matrices y registros de máscara.
En cambio, no se han variado la ruta de datos de 256 bits que llegó en Zen 3, así que para hacerlo posible se tiene que reestructurar gran parte del Front End con una única misión: intentar no salir a las cachés y mejorar la eficiencia, sobre todo al usar AVX-512. ¿Cuál es el problema? Que tienes que incrementar en primer lugar la caché de micro operaciones (Micro-op) de 4K que tenía AMD a 6K (6,75K para ser exactos) es decir, se incrementa un 50%.
Sorprendentemente, el aumento de esta caché para Micro-op implica que la traducción de instrucciones complejas en micro operaciones internas más simples requiere un menor coste de energía que lanzarlas a la L1I (esta caché es un 50% inferior en tamaño, puesto que antes en Zen 3 eran iguales) o L1D. ¿Por qué? ¿Qué consigue AMD con esto? Mejorar las operaciones de búsqueda y codificación en la arquitectura, lo que reduce la latencia general (que no individual como veremos más adelante), el consumo de energía comentado y mejorar el IPC en mayor o menor medida.
Por ello, también se necesitan implementar cambios en las unidades de carga y descarga, Branch Prediction y por supuesto, los motores de ejecución para dar salida a las instrucciones y datos ya trabajados. Por eso, la L2 pese a duplicar su tamaño tiene muy poco impacto en el aumento del IPC general del 13%. En cambio, en los juegos este impacto sí que será notable por la cantidad de información a tratar para la tarjeta gráfica, así que el balance de rendimiento tenía que tener esta mejora en la L2, algo que Intel también ha hecho por motivos muy similares.
¿No tiene nada negativo la arquitectura AMD Zen 4?
Lo cierto es que sí. La L1I y L1D se mantienen sin cambios, la L2 aumenta de 512 KB a 1 MB, la L3 se mantiene en 4 MB, pero las latencias no son iguales. La L2 pasa de 12 ciclos de reloj a 14 ciclos, de ahí también el incrementar la caché Micro-op para intentar que los datos que no se puedan trabajar a tiempo pasen a una de las L1 según convenga, y evitar la L2 y la L3 en todo lo posible y solo si es necesario.
En cuanto a esta última, la L3, se pasa de 46 ciclos por reloj a 50 ciclos. ¿Cómo se va a compensar esto en un principio? Con una mayor velocidad de Infinity Fabric (la frecuencia general de los núcleos ayuda también obviamente) y la reducción de latencias por la nueva topología de CCD/CCX. Lo que no sabemos es si cuando haya que acceder a las cachés de segundo y tercer nivel la compensación es total, parcial o incluso si este paso atrás significa mejor rendimiento por lo descrito.
Otro de los cambios que ahora sabemos es en el búfer de reordenación o ROB. Este es el encargado de paliar también el problema de la latencia, ya que ahora pasa de 256 entradas en Zen 3 a nada menos que 320 en Zen 4. El objetivo es que a medida que las instrucciones terminen de ejecutarse en registros, pasen por la caché Micro-op, debido al mayor tamaño de esta el ROB tiene que incrementarse para que este las pueda marcar como "Not Busy".
Es decir, mayor número de instrucciones trabajadas por la caché de micro operaciones, mayor necesidad de un búfer más grande de reorganización para que marque las instrucciones y pueda formar una cola de trabajo en los bancos de instrucciones del procesador. Debido a esto y como era necesario para mantener la estructura jerárquica, el búfer de destino de bifurcación o BTB de la L1, tanto para la L1I como para la L1D, ha crecido de 1 KB a 1,5 KB.
Mejora de rendimiento o problemas de la arquitectura AMD Zen 4
Pues si nos ceñimos a los datos ofrecidos por AMD, tenemos un +13% de IPC, el cual es el segundo peor registro de todas las arquitecturas Zen, solo superado por Zen+ con un 3%, lo que evidencia que el trabajo ha sido duro y que es la base de la futura arquitectura Zen 5. A cambio, y al más puro estilo Intel, las frecuencias y su salto hacia delante palían esta cifra del +13%.
Y es que se ha logrado un salto del +16% con Zen 4 si comparamos todos los topes de gama de los procesadores en sus respectivas arquitecturas. El conjunto de ambas cifras es el 29% que se ha estado comentando durante meses sobre los Ryzen 5000 en gaming y que en términos generales parece ser bastante más comparativamente hablando, ya que hay cifras como un +49% en varios escenarios.
El problema térmico de los Ryzen 7000
Aquí habrá controversia hasta que veamos datos claros y reales, pero sobre el papel, una menor área total del IHS, un consumo a mayores de 230 vatios en PPT y unas frecuencias que no van a bajar hasta el Tjmax nos hacen pensar que estamos en un punto muy parecido al de Intel, donde con facilidad se superarán los 80 ºC.
El problema, lógicamente, no viene tanto del consumo en sí mismo como del área. Los cálculos aproximados dicen que estaremos entre 2 y 2,1 vatios por milímetro cuadrado de IHS, lo que supone un incremento notable y por ende, el sistema de refrigeración tiene que ser mucho mejor que el que tengamos en Zen 3, pero esto no es todo...
Lo comentado no es solamente debido a la arquitectura y las frecuencias, al nodo o a los cambios, es que en esta ocasión y viendo la desventaja en arquitectura heterogénea (inexistente, veremos Zen 5 desarrollado aparte y en principio con E-Cores) que tiene AMD, los de Lisa Su han ido a por todas llevando al límite todos sus procesadores de serie y dejando muy poco margen para el overclock común, que no extremo.
La compañía es consciente de que tardará casi 6 meses más en lanzar los modelos con 3D V-Cache, tiempo que Intel, según parece, estará por delante o al menos competirá en ciertos escenarios. Pero lo que parece seguro es que es una arquitectura momentánea, siendo el paso previo a Zen 5 en algún punto de finales del año que viene.
Algo así como Alder Lake para Raptor Lake y Meteor Lake, es la base del cambio y eso normalmente implica que si quieres ser rápido realmente tienes que ir al límite, tal y como hizo Intel con su primera arquitectura heterogénea de la historia. Por lo tanto, no discutimos la velocidad, ni la arquitectura, pero el punto más complicado será desde la energía y el calor, por lo que esta vez sí, una buena placa base puede marcar diferencias, al igual que una buena refrigeración.