AMD Instinct MI300X: hasta un 60% más rápida vs. NVIDIA H100 en IA

Hoy AMD realizó un evento enfocado a la Inteligencia Artificial, y fue allí donde presentó su Instinct MI300X. Evidentemente, estamos ante una GPU enfocada a acelerar la IA. Esta combina la mejor tecnología de AMD (arquitectura CNDA 3 y diseño chiplet), junto a lo mejor de TSMC. Es decir, un proceso de fabricación de vanguardia junto a su tecnología de empaquetado.

Esta gráfica también alardea de ser la más avanzada de su clase a nivel de memoria. Es capaz de ofrecer 192 GB de memoria HBM3 con un ancho de banda de hasta 5,3 TB/s y una ancho de banda de Infinity Fabrica de 896 GB/s. Esto representa un gran avance respecto a los 96 GB de memoria HBM3 que incorpora la NVIDIA H100 con la que se compara. También sigue siendo más memoria que la que ofrecerá la NVIDIA H200 (141 GB HBM3e), y que incluso la solución de Intel, un Gaudi 3 con 144 GB HBM3.

Esto es lo que sabemos de la AMD Instinct MI300X

8x AMD Instinct MI300X vs 8x NVIDIA H100

El acelerador de IA AMD Instinct MI300X hace uso de nada menos que 8 die de computación. Cada uno de ellos esconde en su interior 40 Compute Units bajo la arquitectura CDNA 3. Esto se traduce en tener 2.560 núcleos CDNA 3 en cada die, dando como resultado final un total de 20.480 núcleos. Estos núcleos están interconectados utilizando la solución de interconexión Infinity Fabric de 4ª Generación. Adicionalmente, tenemos nada menos que 28 dies adicionales, de los cuales 8 de ellos son memoria HBM3. Los 16 restantes no son más que "chips falsos".

Estos 8 chips de memoria suman la poco modesta cantidad de 192 GB de memoria HBM3. Esto representa un 50% más de capacidad de memoria respecto a su predecesora, la Instinct MI250X, que cuenta con 128 GB de memoria. De esta forma, cada stack o pila de memoria HBM3, ofrece 24 GB de capacidad. Esta memoria se acompaña de 256 MB de memoria Infinity Cache.

No hay datos concretos, pero AMD indica que su Instinct MI300X ofrece un 30% más de rendimiento FP8 y FP16 respecto a la NVIDIA H100, ofreciendo un 140% más capacidad de memoria y un 60% más de ancho de banda. En aplicaciones reales, AMD indica que su Instinct MI300X es un 20% más rápida en el modelo de lenguaje colosal Llama 2 y FlashAttention 2 respecto a la NVIDIA H100. En un servidor que acoge 8 GPU, la mejora pasa a ser de hasta un 40% en Llama 2 y hasta un 60% en Bloom.

Eso sí, es más potente, pero también consume más energía

Servidor con 8x AMD Instinct MI300X

AMD tiene un pequeño problema con esta Instinct MI300X, y es su consumo energético. Esta gráfica tiene un consumo clasificado de 750W. Esto es un notorio salto a su predecesora. Hablamos de consumir un 50% más de energía respecto a los 500W de la Instinct MI250X. Y claro, todas la comparaciones son con la NVIDIA H100, pero una aún más potente NVIDIA H200 consumirá 50W menos de energía cuando llegue al mercado en el 2024. La NVIDIA H100 tiene un consumo de 350W.

Debido al alto consumo, un servidor con 8x AMD Instinct MI300X y dos CPU AMD EPYC 9004, se pueden equipar con hasta 8x fuentes de alimentación de 3.000W de energía para lidiar con cargas de trabajo de hasta 18.000W de energía.