NVIDIA unirá más de 1000 GPU mediante fibra con conexión óptica

Anteriormente, ya hemos hablado de las ventajas que implica abandonar la transferencia usando electrones, sustituyéndola por fotones. Y es que, esta permite transmitir datos a la velocidad de la luz, literalmente. Si bien es cierto, que las interconexiones eléctricas entre componentes son mucho más baratas, se está alcanzando su límite. Así pues, es hora de innovar y NVIDIA ha enseñado como se conectarían más de 1.000 GPU mediante conexión óptica.

La conexión y transferencia de datos mediante la electricidad, usando electrones ha sido una forma barata y que ofrecía un buen rendimiento. No obstante, está viéndose limitada según vamos avanzando y necesitando mayor ancho de banda. Así pues, llegará el día en que tendremos que desechar este método y pasar a los fotones, cambiando el cobre por la fibra óptica.

El ancho de banda, la señal eléctrica y el alcance en una GPU

Señal Electrica Ancho de Banda Disminución

El jefe del departamento científico de NVIDIA, Bill Dally, presentó estos resultados en una conferencia sobre comunicación por fibra óptica. En ellos, observamos que tanto la disminución de nanómetros en nodos como el aumento de tasa de bits en términos de ancho de banda, hacen que el actual método pierda efectividad. De hecho, vemos una caída en el alcance que permite la transferencia de datos mediante electricidad y electrones. Por ello, NVIDIA planea una solución al problema, firmando una colaboración para investigación y desarrollo con Ayar Labs.

Esta se centra en la tecnología de interconexiones por fotónica de silicio y empleando conexiones ópticas de las que se quiere beneficiar NVIDIA en sus GPU. De hecho, participó en la recaudación de fondos de para la Serie C de Ayar Labs, consiguiendo 130 millones de dólares para crear sus láseres e interconexiones de fotónica de silicio.

NVIDIA DWDM Coempaquetado optico ventajas

Dally, del departamento científico de NVIDIA explicó que planean usar "Dense Wave Division Multiplexing" o DWDM junto a esta tecnología de conexión óptica para unir varios racks de GPU. Las mejoras son claras, pues se consigue un menor consumo energético comparado con el cable. Respecto a la densidad, está será superior que si se utiliza un PCB y por último el alcance será superior a todos e igual al AOC de 100 metros.

NVIDIA Echelon, el primer sistema con óptica

NVIDIA Echelon Interconexión Óptica

NVIDIA ya desarrolló hace más de una década, en 2010 un sistema a Exaescala llamado "Echelon". Esta máquina tenía motores matemáticos conectados de forma eléctrica e interconexiones ópticas Cray Aries entre los racks. Aún así, no llego a comercializarse pero eso no evitó que NVIDIA usase esto como idea en sus proyectos. Y es que, la compañía adoptó la interconexión de memoria NVSwitch de Dally para producir procesadores GPU NUMA con conexiones InfiniBand multipuerto.

De hecho, esta misma NVSwitch, se ha utilizado para los sistemas NVIDIA DGX actuales, con GPUs Volta V100 y Ampere A100. Sin embargo, solo se podía escalar hasta 16 tarjetas gráficas a la vez y cuando se duplica el ancho de banda, tan solo se logran agrupar 8 GPU. Aún así, NVIDIA ha afirmado que logrará implementar hasta 256 GPUs H100 y se comercializará a finales de este año. Esto implica un salto enorme, pero hay que tener en cuenta que sigue limitado por el cableado eléctrico en vez del uso de una conexión óptica por fotones.

Así es la conexión óptica por fotones de GPU NVIDIA usando NVSwitch

Conexión Fotónica Óptica NVIDIA NVSWITCH

Este sería el diagrama de como la GPU y el NVSwitch de NVIDIA tendrían motores ópticos (Optical Engine) para convertir la señal eléctrica en óptica y que el sistema funcione usando esta. Así pues, tenemos un total de 24 NVLinks que salen de cada motor óptico a 200 GB/s ofreciendo un un ancho de banda combinado de 4,8 TB/s. Esto significa que un NVSwitch con 6 motores ópticos tendría una capacidad de 28,8 TB/s en bruto y 25,6 TB/s una vez restada la sobrecarga por codificación.

Dicho esto, se espera que la eficiencia energética usando esta conexión óptica con GPU NVIDIA será mucho mayor. Se estima así un consumo de 3,5 picojulios por bit con un alcance de 100 metros. Mientras tanto, la versión eléctrica usada por los sistemas DGX-A100 de NVIDIA consume 8 picojulios por bit con un alcance de 300 centímetros.

NVIDIA GPU Conexión Óptica Fotónica NVSWITCH

Así pues se espera que con este método se puedan crear sistemas con más de 1000 GPU NVIDIA interconectadas y todo, con la mitad de consumo por transferencia de datos. Además, como vemos en los renders conceptuales, la disposición de GPUs y Switches están dispuestas de forma vertical. Esto ayudará a la refrigeración y al no estar conectadas en un PCB con socket se ahorra en costes.