China tendrá un chip con 1.600 núcleos y 1 billón de transistores ¡utilizando toda una oblea!
China juega a otro nivel, va a por todo y pese a las limitaciones tecnológicas se permite soñar a lo grande. Por ello, ya está en fase de desarrollo su último hito, el cual será crear el procesador más grande y con más núcleos del mundo en una sola oblea, haciendo de esta el propio chip. El objetivo de China es incluir en su chip nada menos que 1.600 núcleos y un total de 1 billón de transistores, recibiendo el nombre de Zhejiang o Big Chip, en lo que se conoce en el sector como "Waferscale".
China se lanza a por un sistema que solo ha tenido éxito en los últimos tiempos con un diseño tan peculiar como el de Cerebras Systems. En concepto es extremadamente parecido, solo que llevado a un nuevo nivel con unos recursos muy primitivos para estar ya en 2024. Por ello, China merece un reconocimiento, ya que lo que van a hacer no es sencillo, ni mucho menos.
Un diseño que tiene un límite: 858 mm2, ¿cómo será el chip oblea de China con 1.600 núcleos?
Pues será complejo, muy complejo, con algunas lagunas a solventar, y sobre todo, delimitado por esos 858 mm2. ¿Por qué esa cifra tan redonda? Pues, nunca mejor dicho, porque es el área total de una oblea de silicio de 300 mm, es decir, 12 pulgadas.
El reto y programa lo ha asumido el Instituto de Tecnología Informática de la Academia de Ciencias de China, o más conocido como CAS, los cuales han publicado un artículo explicando gran parte del proceso en la revista Fundamental Research, dejando los detalles principales.
Lo primero que debemos saber es que la oblea será grabada con el proceso litográfico de 22 nm, así que podemos entender la complejidad del asunto cuando actualmente occidente está en los 3 nm. La grabación se hará con los escáneres de ASML que ostenta SMIC en sus FAB y sabemos que será complejo porque el chip de oblea está diseñado a base de chiplets, 16 para ser concretos.
Un diseño básico de inicio, una escalabilidad gigantesca
Como todo, se requiere empezar por algún sitio, y por lo tanto, la primera prueba se hará con esos 16 chiplets. Hay que aclarar que cada chiplets alberga 16 núcleos RISC-V, así que el primer prototipo tendrá "solo" 256 núcleos. Esto no es impresionante como tal dada las características que permite la ISA, por lo que, como decíamos, es el prólogo del proyecto a escala.
El CAS afirma que el diseño tiene un límite de capacidad actual de 100 chiplets, lo que significa que a 22 nm en una oblea de 300 mm pueden albergar hasta 1.600 núcleos en total, lo que dejaría según los cálculos que han hecho más de 1 billón de transistores en un área de 858 mm2.
Por desgracia, no dan datos demasiado concretos sobre preguntas que hay que formular, porque, por ejemplo, no está claro cómo se van a configurar tantos chiplets juntos, y que jerarquía de memoria van a seguir. Solo han desvelado datos básicos, como que los chiplets estarán conectados con enlaces SMP y que cada uno de ellos puede compartir su memoria con cualquier otro de los 99 restantes.
La interconexión de su interposer será 2.5D obviamente de tipo D2D, como así lo afirman los investigadores:
"La interfaz está diseñada utilizando una técnica de channel-sharing basada en un mecanismo de multiplexación en el tiempo. Este enfoque reduce la cantidad de señales entre chips, minimizando así la sobrecarga del área de los bumps de E/S y los recursos de cableado del interposer, lo que puede reducir significativamente la complejidad del diseño del sustrato. Los chiplets terminan en la capa metálica superior, donde se construyen los micro pads de E/S”.
Latencia ultra baja entre núcleos y muy baja entre chiplets, todo con una futura caché vertical
Parece que China ha aprendido muy bien de AMD e Intel, puesto que van a llevar los chiplets y las latencias bajas a un nuevo nivel dentro de sus recursos y posibilidades, obviamente. Los investigadores hablan con bastante optimismo de cómo serán las interconexiones para este chip con 1.600 núcleos en una oblea:
“La arquitectura de chiplet está diseñada con muchos núcleos y muchos chiplets con interconexión jerárquica. Dentro del chiplet, los núcleos se comunican mediante una interconexión de latencia ultrabaja, mientras que los chipsets se interconectan con una latencia baja, beneficiosa de la tecnología de empaquetado avanzada, de modo que la latencia en el chip (let) y el efecto NUMA en un sistema de tan alta escalabilidad puede minimizarse.
La jerarquía de memoria contiene memoria central, memoria en chip (let) y memoria fuera del chip (let). La memoria de estos tres niveles varía en términos de ancho de banda de memoria, latencia, consumo de energía y costo. En la descripción general de la arquitectura de chiplet jerárquica, varios núcleos están conectados a través de un switch cruzado y comparten una caché. Esto forma una estructura de pod, y este pod está interconectado a través de la red intrachiplet.
Varios pods forman un chiplet y este se interconecta a través de la red entre varios de ellos para luego conectarse a la memoria fuera del chip (let). Se necesita un diseño cuidadoso para aprovechar al máximo dicha jerarquía. Utilizar razonablemente el ancho de banda de la memoria para equilibrar la carga de trabajo de diferentes jerarquías informáticas puede mejorar significativamente la eficiencia del sistema de chiplets.
Diseñar adecuadamente el recurso de la red de comunicación puede garantizar que el chiplet realice de forma colaborativa la tarea de memoria compartida”.
¿Memoria HBM o DDR5? ¿Qué tipo de memoria usará China para este chip con 1.600 núcleos?
Como hemos visto, la explicación es muy superficial y no podemos indagar realmente en arquitectura alguna, puesto que no responde a ninguna pregunta que se pueda plantear, incluso si esta es tan básica como el tipo de memoria a usar.
Lo que sabemos es que RISC-V suele ser particularmente favorable con una gran SRAM por chiplet, así que puede que el diseño se base en este concepto, pero también podrían recurrir a memoria HBM de generaciones pasadas, o incluso usar PHY específicos con múltiples canales para DDR5 de alto rendimiento.
En el diagrama que han facilitado se puede ver la interconexión básica de 9 chiplets y se presuponen 6 canales de memoria, lo cual no es descabellado realmente. Por lo tanto, hay que esperar a que este chip de China en oblea con 1.600 núcleos despegue, tras lo cual, posiblemente sepamos mucha más información al respecto, y de paso, quizás alguna métrica de rendimiento o novedad.