AMD le da la razón a Intel y NVIDIA: el camino para los problemas de energía de la IA es crear chips 3D con interconexiones más eficientes y cuantificación

HOT CHIPS ha dejado un gran sabor de boca en este 2024, sobre todo por los datos que mostró AMD de su MI300X, que sin llegar a la altura de lo que puede ofrecer NVIDIA, sí que compite con algunos de sus productos de gama media y sobre todo baja. Victor Peng, presidente de AMD y a punto de jubilarse, dejó una serie de declaraciones en el evento realmente interesantes sobre el futuro de la compañía con respecto al sector más lucrativo en estos momentos: la IA. Y es que el Presidente de AMD le terminó dando la razón a Intel y NVIDIA con los problemas de energía que supone la IA ahora y en el futuro, así como la posible solución a cada apartado.

A punto de dejar AMD este mismo año, a solo unos meses del retiro dorado, Peng dejó su visión de lo que será el futuro del sector más próspero junto con la robótica y los chips en general. Su principal preocupación es la energía, otro sector que está creciendo a marchas forzadas, ya que el planeta requiere más y más fuentes diversas, sobre todo sostenibles, pero la IA no espera...

AMD le da la razón a Intel y NVIDIA compartiendo la misma postura sobre los problemas de energía de la IA

Victor-Peng-Presidente-de-AMD-con-la-CEO-Lisa-Su

Peng lo tiene muy claro, y más después de la velocidad a la que se están desarrollando los modales de IA en estos momentos. Por ello, como antes hicieran Intel y NVIDIA, enfatizó en lo siguiente:

"Si lo analizamos a nivel macro para esos enormes despliegues de IA, estamos hablando de no encontrar suficientes fuentes de energía y de estar preocupados por las redes y la distribución. Resulta que si se añaden más recursos computacionales y se aumenta el tamaño del modelo, se obtiene un mejor rendimiento, precisión, niveles de inteligencia, como se quiera pensar en esto. Pero se ha pasado de consumir cientos de megavatios por hora de entrenamiento a cientos de gigavatios/hora."

En otras palabras, no es asumible de manera sencilla y barata el seguir escalando en la IA. De hecho, y como vimos hace meses, algunos se están instalando cerca de centrales nucleares para poder abastecerse, y otros plantean incluso crear las centrales para sus necesidades, una locura en pleno 2024.

La solución de AMD a los problemas de energía de la IA: chips 3D, redes más eficientes y cuantificación

AMD-solución-problema-IA-con-packaging-3D

Tres son las soluciones que da Peng desde AMD. La primera ya la incluye Intel en sus procesadores de portátiles y en breve lo hará en escritorio gracias a Foveros 3D y a sus NPU en diferentes arquitecturas. Es decir, el crear chips en 3D. ¿Por qué esto es necesario en la IA? Pues porque según los datos de AMD, el apilamiento 3D de silicio, aunque más complejo, es 50 veces más eficiente que hacerlo fuera del encapsulado.

El actual 2,5D con HBM mejora en hasta 20 veces el llamado off-package, ya casi en desuso, pero también mejora en 15 veces el on-package común de los chips menos punteros. En definitiva, Peng afirma que es posible lograr hasta 50 veces más bits por julio de energía con chips 3D, y eso es una ventaja clave en estos momentos para Intel frente a NVIDIA y AMD.

Mejor-conectividad-en-redes-de-IA-para-reducir-el-consumo-de-los-chips

El segundo punto va dirigido a las conexiones de datos y red. Mover los datos a la velocidad que se necesita para lograr un mayor rendimiento es extremadamente caro en cuanto a eficiencia energética. Dentro de un chip lo es, pero sacarlos hacia otros dispara el consumo, donde además hay que tener en cuenta las tarjetas de red, conmutadores y sistemas ópticos, que también consumen lo suyo.

Por ello, Peng asegura que AMD está mirando fijamente a mejorar las interconexiones de red, ya que absorben casi un 20% del consumo total de cada servidor. Por último, el presidente de AMD quiso hablar sobre la cuantificación. Esta es una técnica de compresión de datos pensada en última instancia para los modelos de IA y su precisión.

La ventaja de NVIDIA con FP4 es abismal: Blackwell compite sola

Cuantificación-por-precisión-del-modelo-de-IA-en-FLOPS-por-julio-FP32-vs-FP8-vs-FP4

Esto lo abordó NVIDIA en la presentación de Blackwell, donde debutó FP4, el cual logra 10 veces más FLOPS por julio que FP8 y 25 veces más que FP32 dentro de la precisión con pérdida de calidad. Evidentemente, 4 bits es mucho menos preciso en IA que 32 bits, pero si esta precisión es suficientemente alta el mayor rendimiento por vatio conseguido dispara la eficiencia. NVIDIA ha dado el primer paso, AMD lo dará con su MI350X, e Intel posiblemente lo haga con Gaudi 4.

Para terminar, Peng aseguró que la optimización del software está siendo más clave que nunca en estos momentos, y que AMD está uniendo su desarrollo al hardware para lograr un paquete uniforme y más optimizado, algo que NVIDIA tiene muy trabajado e Intel se acerca cada vez más con sus API y plataformas.

En definitiva, el camino a recorrer nos dejará muchos mejores datos de eficiencia, los nuevos nodos y arquitecturas ayudarán, pero igualmente esto solo provocará que logremos más rendimiento en menor espacio, pero si algo hay que tener claro es que la demanda de energía para la IA seguirá siendo un problema para AMD, NVIDIA e Intel, así como para sus socios.