AMD Zen 5, primera review disponible de un Ryzen AI 9 365 (Strix Point) para portátiles
Strix Point está a punto de debutar en un mercado tan complejo como el de los portátiles. Sabiendo que Intel no va a adelantar a Lunar Lake por el fiasco de Qualcomm, se hace imposible no pensar en el hecho de que AMD estará sola por algo más de dos meses con Strix Point. Por suerte y en una cesión temporal de las CPU Strix Point, David Huang ha podido mostrar datos muy claros a modo de review corta o preview, donde un Ryzen AI 9 365 HX muestra las bondades de la arquitectura Zen 5.
Los dos primeros procesadores que pondrá AMD en liza para el mercado son el Ryzen AI 9 370 HX y el hermano menor, el Ryzen AI 9 365 HX, donde el primero tiene 12 Cores en una disposición dispar de CCX a modo de 4 Zen 5 + 8 Zen 5c, y el segundo ostenta 10 Cores con 4 + 6 núcleos. Las frecuencias llegan hasta los 5,1 GHz para el mayor y hasta los 5 GHz para el menor. Esto es importante de comprender para la siguiente retahíla de datos.
AMD Ryzen AI 9 365 HX en su primera review, un rendimiento en sus SIMD y L1 reducido a la mitad
Lo que ha hecho AMD aquí es algo curioso, ya que va a disponer de la mayor diferencia de rendimiento entre una misma arquitectura de su historia entre las versiones de PC y portátil. Esto nos deja un ancho de banda en caché de la mitad, al menos en su L1, y será interesante ver el paso a la L2 y a la L3 para comprobar su rendimiento.
La primera prueba a la que ha sido sometida la arquitectura es el rendimiento y latencia entre instrucciones enfrentando Zen 3, Zen 4 y Zen 5 (Strix Point). Sobra decir que en PC al tener las SIMD completas los datos deben ser mucho mejores, al menos del doble.
Como se puede ver en la tabla superior, el rendimiento varía en algunas instrucciones, sobre todo en las escalares, mientras que en las vectoriales lo que tenemos por norma es una duplicación del rendimiento. En instrucciones AVX-512 tenemos un aumento de los ciclos de 1 a 2 frente a Zen 4. Esto es otro de los pequeños cambios para ellas que se presupone que es debido a que AMD pretende mantener la frecuencia en el mismo valor de Boost se usen o no.
Además, las instrucciones NOP (No Operation) ya no se pueden mezclar o combinar con el resto de instrucciones, lo que nos deja un escenario perfecto para comprobar latencias y ciclos con IPC.
El ancho de banda de las NOP solo despega cuando se usa SMT2
Es lo curioso de este asunto y tiene mucho que ver con las mejoras en el Front-End que deslizó AMD. Hay que recordar que los rojos dijeron que habían implementado un "Parallel Dual Pipe" en su Front-End para mejorar la precisión y latencia del Branch Prediction.
Lo que vemos en el gráfico superior es que Zen 4 y Zen 5 a casi la misma frecuencia clavan los datos de rendimiento en su caché de macrooperaciones, pero hay leves pérdidas a un hilo en Zen 5. La arquitectura necesita de su SMT para poder escalar en rendimiento, y aunque el salto de KB entre cachés tiene un impacto visible y un coste en el ancho de banda, en rendimiento general mejora enormemente y de hecho, casi se duplica pasando de 4 sostenido a entre 7 y 8.
Ni que decir tiene que salir de la caché en busca de información a la memoria mata el rendimiento y ancho de banda. Usando 4 byte con NOP comenzamos a ver el salto de la arquitectura. Zen 4 ya entra a combinar sus instrucciones NOP y casi duplica el rendimiento, pero salir de la L1 lo mata.
Lo que vemos con Zen 5 es que a un solo subproceso el rendimiento está por encima de 6 antes de saltar de L1 a L2, lo que implica que el Caché OP equivale a un Decoder 4 Way por cada hilo, es decir, Zen 5 tiene doble Decoder a 8 Way, y esto se ve con los datos de SMT2 que alcanza 8 y no para hasta salir a la L3, donde su rendimiento cae.
Lo que podemos extraer aquí es que AMD Zen 5 y su doble Decoder dependen mucho, lógicamente, de su caché de macrooperaciones cuando hay pocas ramas en uso, algo lógico que no sigue el camino de Intel, sino que más bien es algo totalmente distinto.
Acceso a la memoria y latencia
Aquí se ve todo bastante más claro. El cambio de 32 KB de L1 a los 48 KB de L2 implica mantener una menor latencia algo más de tiempo a mismos ciclos. Además, el salto a la L2 se hace de mejor forma, menor número de ciclos usados incluso con menor frecuencia, lo cual implica un pequeño salto de rendimiento en el Front-End y su optimización.
Pasar a la L3 implica otra reducción de latencia, menor eso sí, de unos 50 ciclos a unos 45 aproximadamente, lo cual es un paso adelante, pero esto va ligado al hecho de que ahora sí la frecuencia de los núcleos importa. Se puede decir que hay un ligero aumento de rendimiento en la L3, pero salir de ella sigue disparando los ciclos hacia la RAM en gran medida, cosa que se palía curiosamente si la frecuencia es menor, además, en bastantes ciclos.
En cuanto a la sincronización de núcleos, ninguna sorpresa tratándose de dos microarquitecturas distintas en dos CCX anexos, pero no juntos. La latencia entre ellos es siete veces superior a la que cada uno tiene entre sus hermanos dentro de un mismo CCX.
Igualmente, estos valores son mayores a los que encontramos en sus hermanos de escritorio. No hay nada a resaltar realmente, funciona como se esperaba dada la arquitectura general y su disposición de elementos.
Rendimiento en SPEC CPU 2017 y Geekbench
Rendimiento comparativo entre Zen 4, Zen 5 y Zen 5c donde este último tiene una frecuencia más baja por motivos obvios. Lo que se puede sacar a groso modo de las pruebas de SPEC CPU 2017 para no alargar mucho más este artículo es que de Zen 4 a 4,8 GHz a Zen 5 a misma frecuencia hay un aumento de rendimiento del 9,71%. El motivo de bajar las frecuencias es conseguir que ninguna CPU la reduzca por Thermal Throttling, y así el rendimiento es más homogéneo.
En Geekbench 6, tanto en Single Core como en Multi Core, lo que encontramos es un escenario más similar a lo que aportó AMD en la presentación de la arquitectura. Zen 5 consigue un aumento en el IPC de un 15,28% en total a un núcleo, y un 51,81% en Multi Core frente a Zen 4.
Hay que tener en cuenta que el consumo del Ryzen 7 7840U es de 28W y el del Ryzen AI 9 365 se eleva hasta casi el doble, 54W, de ahí que las diferencias también sean mayores, puesto que son dos gamas distintas de producto realmente.
Dicho todo esto, al ser versiones limitadas en SIMD, caché y frecuencia, buscando el mejor ratio rendimiento/consumo, lo que deberíamos ver en Zen 5 para PC son datos bastante mejores, que trataremos en su momento cuando los datos estén disponibles. Y hasta aquí la primera review del AMD Ryzen AI 9 365 HX, que sin duda será un paso adelante frente a lo visto en Zen 4, ¿podrá Intel estar a la altura con Arrow Lake-H y Lunar Lake?