TSMC usará microLED para crear interconexiones ópticas entre las CPU, GPU y racks de IA
La tecnología está llegando al límite actual, donde en los grandes centros de datos se están buscando soluciones en un momento en el que la IA reclama cada vez más ancho de banda interno, y también externo. Hasta ahora, la óptica en los rack y centros de datos ha sido la tónica dominante con la llamada fotónica del silicio dominando, pero esto está a punto de cambiar. Y es que TSMC junto con Avicena van a crear la próxima era, a la que seguro se sumarán NVIDIA, AMD e Intel, puesto que lo que hará es revolucionario, usa microLED y toma por nombre: LightBundle.
La tecnología es algo bastante disruptivo y no se ha empleado nunca al nivel que pretende TSMC, pero soluciona y por mucho, uno de los principales problemas en este sector, y además, integra una segunda mejora directa que convertirá, si nada lo impide, a esta en la referencia a partir del año que viene.
El problema del cobre y la fibra óptica actual y por qué se necesitan nuevas tecnologías de interconexión
Para entender la solución que se propone primero hay que entender el problema de base. Y es que la fotónica de silicio a nivel de transmisión en los centros de datos, de rack a rack, está quedándose corta, y mucho más si tenemos en cuenta los avances de NVIDIA y AMD en conexiones internas dentro de sus propios sistemas Instinct y GBxxx.
El problema es que ni los enlaces basados en el cobre ni los que están fabricados en fibra son suficientes, colapsan. Hasta ahora, un módulo que normalmente es enchufable se conecta con la fibra óptica y esta va al rack, pasando las señales de luz a eléctricas, como la ONT de tu router, pero con un ancho de banda y velocidad muchísimo más grande. De ahí, solo en los centros de datos más avanzados, se dio el sato a las CPO, que son electroópticas y están muy cerca de la GPU físicamente hablando.
Sabiendo esto, hay que comprender que un solo cable de fibra óptica para estas GPU alberga docenas de enlaces para una gran cantidad de ellas por rack. ¿Cómo lo hacen exactamente? Pues el cable tiene diferentes longitudes de onda, lo que supone una especie de canales individuales, pero normalmente esto suele fallar por la complejidad de la cantidad de datos y velocidad. +
La solución, dada la necesidad de aumentar velocidad de transferencia de datos y reducir latencia entre GPU y rack, fue usar cada línea por un canal físico independiente. O lo que es igual, cada GPU tendría su canal, lo cual dispara los costes. Esto, con las tecnologías propias CoWoS y SoW en sus diferentes versiones colocan a TSMC a la vanguardia que necesitan sus clientes.
TSMC y Avicena crearán los centros de datos del futuro con LightBundle en base a microLED
La solución al problema de la fibra óptica, las longitudes de onda y los canales individuales que NVIDIA y AMD tanto se han quejado porque limitan y encarecen los productos finales y sistemas, es más simple de lo que parece, pero tecnológicamente muy avanzada.
La interconexión se llama LightBundle y está creada por Avicena, y será implementada por TSMC, que usará fotónica de silicio y microLED. Sí, has leído bien, la tecnología para enviar información entre GPU o racks enteros se hará con microLED, y claro, te estarás preguntando que cómo es posible algo así.
Simplificando la idea, LightBundle usa cientos de microLED de color azul a una matriz final de fotodetectores, las cuales tiene fibras de imagen mutinúcleo, una por línea de datos según informa Avicena. Cada línea tiene una velocidad de 10 GB/s, así que, si tenemos en cuenta que un enlace óptico simple de 300 píxeles a dicha velocidad, por 10 metros de largo (límite actual) tenemos de una sola tacada nada menos que 3 Tb/s de información por pulso.
Ahora, la fotónica de silicio y la óptica van a ir de cámaras y pantallas, donde un emisor y un receptor van a enviar pulsos de luz azul con microLED, todas tecnologías extremadamente maduras a día de hoy, pero sobre todo escalables.
LightBundle es actualmente un prototipo que está siendo sólido, y tiene una ventaja más: reduce por 5 veces el consumo de energía, porque pasa de 5 pJ/bit a menos de uno para mover la misma cantidad de datos. Esto implica que no solamente se va a poder mandar más información entre GPU y GPU, o rack y rack, sino que se hará a un coste más bajo, con una tecnología más “simple” y con menor consumo de energía por cada enlace. Ahora imaginemos esto a escala de 100.000 GPU en un centro de datos de alto rendimiento para la IA. No solamente será más barato actualizar los sistemas, sino que serán más fiables y consumirán menos energía, todo ventajas.
La única desventaja es que, tanto TSMC como Avicena, deben desarrollar las implementaciones a nivel de silicio para ello, y escalar las matrices microLED, lo cual, dejará un tiempo prudencial hasta que lo veamos funcionando.