China está desarrollando su CPU de hasta 1.600 núcleos RISC-V que ocupa el tamaño de una oblea
Hoy conocemos que investigadores del Instituto de Tecnología Informática de la Academia China de las Ciencias (CAS) están desarrollando una CPU de 1.600 núcleos. Para crear una CPU tan potente, hará lo que ya hizo Cerebras en el pasado, que es crear una CPU del tamaño completo de una oblea.
Si bien podemos pensar que China está lejos de conseguir un hito así, realmente no es el caso. Es más, según un informe de la revista Fundamental Research, resumida por nextplatform, los investigadores ya han desarrollado un procesador multinúcleo de 256 núcleos llamado Zhejiang Big Chip. De esta forma, ahora los investigadores se encuentran trabajando para ir escalando en el número de núcleos para llegar a ofrecer esa solución definitiva que se traduce en tener una oblea en forma de CPU con 1.600 núcleos.
China quiere su CPU de 1.600 núcleos RISC-V del tamaño de una oblea gracias al multichiplet
China tiene un problema en cuanto al aumento de la densidad de transistores ante la falta de la maquinaria más avanzada de ASML. De esta forma, buscar como alternativa las arquitecturas multichiplet resultan cruciales para seguir aumentando el rendimiento. Este Zhejiang Big Chip de 256 núcleos consigue alcanzar dicha densidad gracias a 16 chiplets de 16 núcleos RISC-V cada uno. Todos ellos van interconectados mediante una red en chip.
Empleando este diseño, los investigadores pueden llegar a crear una configuración de hasta 100 chiplets, dando así como resultado los 1.600 núcleos a los que aspiran llegar. Aunque el multichiplet es habitual hoy en día, el uso de toda la oblea para un sistema estaría a la altura del innovador planteamiento de Cerebras. Los investigadores citan la supercomputación a exaescala, basada en un proceso de fabricación de 22 nm, como una aplicación ideal para las arquitecturas multichiplet masivamente paralelas.
Aquí hay una notoria diferencia en torno al uso de obleas a 7 nm por parte de Cerebras. Esto permite a la compañía crear una CPU de 850.000 núcleos. Todo ello gracias al uso de 260.000 millones de transistores. Además estos núcleos se acompañan de 40 GB de memoria SRAM.
Los diseños chiplets ayudan a contrarrestar el uso de litografías menos modernas
Evidentemente, crear una CPU de hasta 1.600 núcleos tiene otro gran problema por delante: el software. Estamos hablando de una excelente optimización por delante para equilibrar las cargas de trabajo en toda la jerarquía del sistema. La integración del procesamiento casi en memoria y el apilamiento 3D podría optimizar aún más la eficiencia. Los investigadores exploran los límites de la litografía y el empaquetado. Además de proponer los sistemas jerárquicos de chiplets como una vía flexible hacia la futura escala de computación. Otros problemas a tener en cuenta estarán ligado al rendimiento y refrigeración.
Una base de 256 núcleos demuestra el potencial de los diseños modulares como alternativa a la integración monolítica. El interés de China refleja las múltiples iniciativas de gigantes estadounidenses como AMD e Intel en materia de CPU para centros de datos. Pero las ambiciones nacionales en materia de semiconductores añaden urgencia para demostrar que las soluciones de diseño nacional pueden rivalizar con la innovación extranjera. Aunque los detalles de rendimiento no están claros, los rápidos avances son prometedores en el dominio de la integración de chips modulares.
"Para la computación a exaescala actual y futura, prevemos una arquitectura jerárquica de chiplets como solución potente y flexible", escriben los investigadores del CAS.
"La arquitectura de chiplets jerárquicos está diseñada como muchos núcleos y muchos chiplets con interconexión jerárquica. Dentro del chiplet, los núcleos se comunican mediante una interconexión de ultrabaja latencia, mientras que los chiplets se interconectan con baja latencia gracias a la avanzada tecnología de empaquetado, lo que permite minimizar la latencia en el chip y el efecto NUMA en este sistema de alta escalabilidad. La jerarquía de memoria contiene memoria central, memoria on-chip(let) y memoria off-chip(let). La memoria de estos tres niveles varía en términos de ancho de banda de memoria, latencia, consumo de energía y coste.
En la visión general de la arquitectura jerárquica-chiplet, varios núcleos están conectados a través de un conmutador cruzado y comparten una caché. De este modo se forma una estructura de cápsula que se interconecta a través de la red intrachiplet. Múltiples pods forman un chiplet y el chiplet se interconecta a través de la red inter-chiplet y luego se conecta a la memoria off-chip(let). Es necesario un diseño cuidadoso para aprovechar al máximo esta jerarquía.
Una utilización razonable del ancho de banda de la memoria para equilibrar la carga de trabajo de las distintas jerarquías informáticas puede mejorar significativamente la eficiencia del sistema de chiplets. Un diseño adecuado de los recursos de la red de comunicaciones puede garantizar que el chiplet realice de forma colaborativa la tarea de memoria compartida."