Así funciona el Compute Tile de los Core Ultra 200S, ¿ha preparado Intel la base para su caché vertical en PC y portátiles?
Intel ha sorprendido poco desde el rendimiento con sus nuevos Core Ultra 200S con arquitectura Arrow Lake-S, donde salvo el incremento en multitarea, que está por ver cuánto será realmente, en juegos ya han confesado que será ligeramente más lento (veremos tras las review). Como ha pasado en Zen 5 y AMD, lo realizado "bajo el capó" realmente es mucho más interesantes y disruptor que lo que reflejan los datos de puntuaciones o FPS. Tanto es así que viendo el Compute Tile de Arrow Lake-S, ¿es posible que Intel se esté preparando para implementar una caché vertical en la siguiente generación de procesadores?
Parece extraño que viendo el buen resultado de Lunar Lake, teniendo más capacidad y área física para implementar cambios y con un consumo disponible mucho mayor, así como refrigeraciones que dejan en ridículo a los portátiles, Intel haya implementado la arquitectura Arrow Lake de forma tan dispar frente a Lunar Lake compartiendo P-Cores y E-Cores, ¿cuál es el motivo?
PC y portátiles comparten todo menos la GPU: distintas IP, distintos nodos, mejores costes de producción
Es curioso cuanto menos que esto sea así, y aunque no sorprende, sí que es cierto que optar por una estructura de Compute Tile en la gama Core Ultra 200HX era más óptimo por temas de temperatura y consumo, ya que al final, siguen siendo portátiles.
Lo que tenemos abajo es precisamente el die shot de Lunar Lake y el de Arrow Lake, y como vemos, más allá de compartir los núcleos Lion Cove y Skymont con sus clústeres poco tiene que ver.
Solo centrándonos en los núcleos vemos claramente que la disposición es totalmente diferente, ¿por qué Arrow Lake-S ha pasado de la configuración de Lunar Lake a esta? Por dos objetivos de potencia distinta, pero hay más.
El concepto de Arrow Lake-S es parecido al de Meteor Lake, es decir, un Base Tile con Tiles que en realidad son bloques de IP. ¿Por qué hacer esto cuando has demostrado previamente que puedes incluir todas las IP importantes en una sola dentro del conocido Compute Tile? Dos motivos para hacerlo. El primero son costes.
Tanto Arrow Lake-S como Meteor Lake se construyeron en distintas Tiles porque se ahorran costes en la primera generación de estas CPU, que fueron y son el salto a MCM para sus respectivas plataformas y segmentos.
¿Cómo van a ahorrar costes incluyendo 6 Tiles en vez de 2? Pues sí, y tiene que ver con el coste de los procesos litográficos:
- Base Tile -> Intel 1227.1 (basado en el diseño PDK de Intel 3, pero adaptado a interconexiones de Tiles, más densidad, mejor eficiencia y fabricado a 22 nm)
- Compute Tile -> TSMC N3B
- GPU Tile -> TSMC N5P
- SoC Tile -> TSMC N6
- I/O Tile -> TSMC N6
- Dummy Tile -> TSMC N6
Ni que decir tiene que introducir una gran cantidad de elementos a lo Lunar Lake en un Tile como el Compute Tile fabricando en N3B sería más caro que dividirlo en varias IP con distintos procesos litográficos más baratos e igualmente útiles. Es exactamente la estrategia de AMD llevada al extremo con la tranquilidad de que tú mismo fabricas el Base Tile en un nodo mejorado del que ya tienes producción en masa.
Pero hay algo más, algo que tiene que ver con los núcleos ya explicado el por qué Intel ha decidido implementar solo núcleos y caché en el Compute Tile.
Acceso a la L3 de los E-Core y Ringbus común
Este apartado es más de diapositiva que de otra cosa, porque realmente hay poco que explicar y menos sin tener datos concretos encima de la mesa, pero desgranémoslos brevemente. El hecho de incluir solo los dos tipos de Core y la caché en el nodo N3B de TSMC, aunque hubiese venido en Intel 20A, lo único que podríamos haber tenido es una mejor eficiencia con una mayor frecuencia, que es cierto, sí, hubiese impulsado el rendimiento y quizás estuviésemos hablando de un rendimiento en gaming a la par de los Core 14, es posible...
Intel 20A no hubiese cambiado la arquitectura general, solo el potencial del Compute Tile en esos términos de eficiencia y rendimiento (frecuencias), pero no la disposición de los núcleos y el Ringbus, principal problema de Arrow Lake-S como arquitectura.
Como se puede ver en el diagrama de bloques básico de Intel el Ringbus divide por la mitad el Compute Tile creado dos clústeres unificados de P-Core y E-Core. La conexión D2D está en uno de los lados, el cual se conecta con el SoC Tile, el I/O Tile y el Graphics Tile, pero es algo que omitiremos para centrar la conversación, solo era a modo informativo.
Lo relevantes que los clústeres están dispuestos entre medias de P-Core, y hay 4 P-Core en el centro del Compute Tile, donde todos ellos, los 8 P-Core y los 16 E-Core pueden acceder a la caché L3, con las ventajas e inconvenientes que ello tiene. Raptor Lake tenía 36 MB de L3, el mismo tamaño que tiene Arrow Lake, con la salvedad de que solo eran accesibles por los P-Core, y en este caso, la L3 es más bien una L4 al incluir la L0 DL0.
Ahora el ratio ha caído drásticamente en cuanto a P-Core / caché L3. Con Raptor Lake cada P-Core tenía disponible un ratio de 4,5 MB de L3, mientras que ahora cada uno de ellos, siempre entendiendo que la carga en todos los Cores es completa, puede acceder a 3 MB de L3 por P-Core o Clúster de E-Core.
La asignación es transparente, y por ello Intel ha tenido que lanzar con esta arquitectura su tercera generación de Thread Director, precisamente para mejorar la prioridad y asignación de tareas a los dos tipos de Core para intentar dejar la mayor parte de la L3 a los P-Core en juegos, moviendo las tareas secundarias a los E-Core.
Es Thread Director el que evita que el rendimiento sea horrible, pero no es perfecto pese a ser una parte del hardware de Arrow Lake. Esto se compensa con la disposición de núcleos:
P-Core -> Clúster E-Cores -> P-Core -> P-Core -> Clúster E-Cores -> P-Core
Esta configuración tiene dos ventajas, una de ellas la hemos nombrado antes: un Ringbus común que divide el Compute Tile en dos, y que cada Clúster de E-Cores está a una sola parada de los P-Core. Hablemos de las ventajas generales y las desventajas en el siguiente apartado.
El Compute Tile podría ser la base de la caché vertical de Intel de primera generación
Antes de volver a retomar información de más arriba, sigamos con la que acabamos de dejar. Los E-Core están a una parada de los P-Core, eso reduce la latencia del salto al mínimo disponible y aumenta el rendimiento, sobre todo para los núcleos de bajo consumo.
El hecho de que accedan a la L3 aumenta también su rendimiento por motivos obvios, y por ello vemos que los núcleos Lion Cove suponen un +9% de IPC frente a Raptor Cove, y los Skymont obtienen un +32%.
Aquí hay que matizar algo que pocos dicen: ese +32% es comparado con Gracemont, no frente a Crestmont, importante tenerlo en cuenta para entender esa mejora brutal. Entonces, ¿son todo ventajas?
Obviamente no. Aparte del problema de compartir la L3 y que esta no sea de mayor tamaño para incluir sin pérdidas a los 16 E-Core en la ecuación, hay otro problema.
Y es que el controlador de memoria está en el SoC Tile, es decir, la información tiene que viajar de un Tile a otro constantemente, sí o sí, lo cual genera latencia extra al proceso. Todos sabemos que la latencia es el problema principal en juegos, mata el rendimiento literalmente. ¿Por qué Intel iba a hacer algo así si ha podido crear Lunar Lake con el IMC en el propio Compute Tile para esa misma microarquitectura de Cores?
Porque no ha pretendido hacerlo nunca, no le interesa, al menos de momento y salvo otro gran cambio de arquitectura, hacerlo. ¿A cuento de qué? De poder incluir por primera vez caché vertical en una CPU gaming al estilo 3D V-Cache de AMD y TSMC. Este es el motivo real de fabricar el Base Tile con el PDK de Intel 3 (Intel 1227.1).
El PDK de Intel 3 es la clave que nos da la pista sobre hacia dónde podría ir los azules
¿Por qué no usar el PDK de Intel 4 en el nodo de 22 nm como Base Tile? Pues hay varios motivos. En primer lugar, no hay versión optimizada para ser Base Die, en segundo lugar, Intel 3 mejora en rendimiento por vatio en un 18% frente a su predecesor, algo que ayuda mucho a todos los Tiles, y exportado al nodo maduro debe ser una ventaja en eficiencia.
En tercer lugar, aunque tiene los mismos 240 nm de alto rendimiento como librerías, se ha añadido una segunda con 210 nm de alta densidad, pero sobre todo y por encima de todo, hay una cuarta razón de peso: permite TSV. No os olvidéis de este punto, porque volveremos a él más adelante, ahora vayamos al Compute Tile otra vez.
La estructura de Ringbus y L3 no es casualidad, igual que el uso del PDK de Intel 3 como Base Tile, la simetría del conjunto tampoco. Lo que parece, y es la teoría, es que Intel en la siguiente generación va a paliar la mayor latencia con el IMC usando exactamente la misma arma de AMD: caché vertical masiva.
Mediante TSV conectaría un Tile de SRAM justamente encima del Compute Tile, y si el diagrama está a escala y no miente, la L3 ocupa casi de forma perfecta 1/3 del espacio que hay a ambos lados de ella con L2+P-Core o el Clúster de E-Cores.
En otras palabras. Intel podría colocar físicamente 128 MB de L3 encima del Compute Tile, 64 a cada lado del mismo y unidos por el Ringbus. Lo hipotético del caso se cumpliría para el N3B con SRAM fabricada en el mismo nodo, pero no superior. Veamos por qué.
Intel Foveros 3D, la versión primigenia de la tecnología traería la caché vertical
Intel ha confirmado que, como en el caso de Meteor Lake y Lunar Lake, Foveros 3D es la encargada de conectar Base Tile y Tiles, es decir, la base con las IP. En su última revisión Foveros 3D ha sido optimizada para lograr el mejor rendimiento por coste, y es el principal motivo para usarlo en PC y portátiles obviamente, pero por encima de ella está la nueva generación enfocada al mismo propósito: PC y portátiles.
Esta revisión rompe un poco con la anterior y se torna como una evolución directa, donde con Foveros 3D necesita de una capa intermedia para la interconexión de matrices.
En el caso de Arrow Lake, este es el motivo por el que Intel no la ha usado, ya que no acepta según que pitch, además, la conexión tiene que ser de tipo Face-to-Face. Por otro lado, Foveros Direct 3D es algo mucho más avanzado y adaptable como explica la propia Intel en la última revisión adaptada a su nodo Intel 18A:
Foveros Direct 3D es una tecnología que permite la conexión directa de uno o más chiplets/tiles a una Base Tile activa para crear módulos de sistema complejos. La conexión “directa” se logra mediante la unión por termocompresión de las vías de cobre de los chiplets/tiles individuales a las de una oblea o incluso mediante la unión directa de obleas (matrices) enteras apiladas unas sobre otras.
La conexión puede ser “Face-to-Face” o “Face-to-back” y puede incluir chips u obleas de diferentes fundiciones, lo que ofrece más flexibilidad en la arquitectura del producto. El ancho de banda de conexión está determinado por el paso de las vías de cobre,o TSV (y la densidad resultante).
La primera generación de Foveros Direct 3D utilizará la unión de cobre con un paso sobre 10 um a 9 um, mientras que la segunda generación reducirá el paso a tan solo 3 um. Esto permite unir chiplets de CPU que se encuentra sobre una gran caché “local” para convertirse en un módulo de cómputo completo, que luego se puede replicar para ampliar la capacidad de cómputo y crear una pila de SKU en función del recuento de núcleos y los requisitos de caché.
Blanco y en botella. Lo que sí sabemos es que el Base Tile tendrá que mejorar, posiblemente al PDK de Intel 3 PT, que aunque no está pensado para hacer esta función, sí que asegura un Pitch de TSV de 9 micrómetros y soporte además para Hybrid Bonding, algo que justamente es lo que requiere Foveros Direct 3D.
Además, sabemos otra cosa más: Foveros Direct 3D está pensado para Intel 18A, o viceversa, es indiferente en este caso. El White Paper de Intel sobre el nodo explica claramente todos los packaging soportados y cita como ejemplo a Clearwater Forest nada menos.
Conclusión sobre la caché vertical de Intel
Demasiado dato, demasiado complejo quizás, pero había que decirlo y desgranarlo. Intel ha lanzado Arrow Lake-S al mercado sabiendo que es la piedra angular y base de lo que serán sus futuras arquitecturas a base de Tiles. El Compute Tile tiene la disposición perfecta para interconectar verticalmente caché vertical al tener un Ringbus central y caché L3 a ambos lados, pudiendo albergar desde 64 MB (32 MB x 2) hasta 128 MB (64 x 2) para cada lado del Ringbus.
El Base Tile con la ayuda del PDK de Intel 3 en el nodo de 22 nm permite el uso de TSV, la arquitectura general usa Foveros 3D, pero falla el nodo de TSMC. De hecho, el bump pitch del N3B es de 30 micrómetros, mientras que Foveros 3D usa 25 micrómetros en su última revisión, y 36 micrómetros en la primera.
Aunque no hay información oficial, se dijo en su momento que Intel 20A tenía un bump pitch de, curiosamente, 25 micrómetros. ¿Es posible que la Arrow Lake-S Refresh hubiese sido una versión con caché vertical de haber usado Intel 20A? Es posible. ¿Puede usar Intel el nodo N3B de TSMC para hacer de Arrow Lake-S una arquitectura con dicha técnica? Probablemente no.
Y la explicación es la alineación de los bump pitch. Habría otra opción que tampoco es descabellada salvo por costes: que Intel usase el N3E. Este nodo de TSMC, el cual está en producción, tiene un bump pitch de 25 micrómetros y sería con ello compatible con Foveros 3D, aunque a un precio realmente elevado ahora mismo, pero el año que viene... Apple pasa al N2 y dejará producción libre, el precio bajará obviamente y podría ser que Panther Lake tuviese caché vertical, aunque sería con Intel 18A, como bien dijo Intel en agosto.
La siguiente generación, Nova Lake, ya en el PDK de Intel 3-PT (variante optimizada para Base Tile) e Intel 18A es más que probable que la incluyan sí o sí, de hecho, hay rumores desde hace más de seis meses. Entre tanto, el die shot de Arrow Lake-S nos dirá si Intel ha preparado la arquitectura para caché vertical el año que viene, ya que debería de verse las conexiones TSV como se vieron con los Ryzen 9000 la semana pasada. Hasta entonces, a esperar a esta caché vertical de Intel.