AMD acaba con las incógnitas de su Instinct MI300X y muestra sus datos oficiales de rendimiento, ¿puede competir con NVIDIA?
AMD ha estado lanzando ciertos datos sobre su acelerador para IA Instinct MI300X durante muchos meses, pero curiosamente, no se podían comparar de tú a tú con lo que NVIDIA tenía en el mercado. La situación fue similar con Intel, parecía que todos jugaban al despiste para no enfrentar datos en un mercado que demanda chips para entrenamiento e inferencia a mayor ritmo de los que se producen. Pues bien, dado que los rojos tendrán listo en breve su sucesor, el MI325X, han desvelado datos que, por fin, se pueden comparar con los de NVIDIA. ¿Quién es más rápido? ¿Es capaz del MI300X de lograr el mismo rendimiento que las H200, GH200 y B200 de NVIDIA?
Hay algunos "peros" que hay que mencionar, porque si bien se han podido medir las principales opciones para IA dentro del mejor hardware que una empresa puede comprar, debemos tener en cuenta que la comparativa no es totalmente justa. Veamos el porqué.
AMD muestra datos de Instinct MI300X para poder ser comparados con NVIDIA
El escenario es uno solo, en concreto, Llama2 70B sin conexión, además, con lo último en software de ambas empresas. La peculiaridad y el "pero" que podemos encontrar en la comparativa que ha puesto muy eficazmente en perspectiva los compañeros de HardwareLUXX cogiendo los datos de la propia AMD y enfrentándolos a NVIDIA, es que el MI300X tiene un TBP de 750W, mientras que la H200, GH200, B200 de NVIDIA está configurada en 1000W, y esa es una diferencia de consumo muy grande.
Lógicamente, esto tiene un impacto en el rendimiento, que será mayor o menor, de momento no lo sabemos, pero igualmente, es interesante comparar los datos aun en estas condiciones, puesto que nunca antes habían coincidido en el mismo escenario en concreto. Para terminar este apartado, hay que tener también en cuenta que las opciones de NVIDIA están configuradas como CTS, es decir, Custom Thermal Solution, o lo que viene siendo una solución de disipación térmica personalizada para las H200, lo que, en teoría, podría darles otra ligera ventaja.
NVIDIA H200, B200 y GH200, rendimiento frente al MI300X, la comparativa que todos queríamos ver
Son datos breves con los hándicap que hemos dicho arriba, pero igualmente interesantes. El primer gráfico muestra a la H200 con 141 GB de HBM3e y 1000W frente al MI300X, pero también se muestran 8 de ellos en tándem, lo que desvela la escalabilidad en servidores.
Unidad por unidad, la H200 es un 66,74% y 46,53% más rápida que el MI300X en offline y server respectivamente. Teniendo en cuenta que la diferencia de consumo es de un 33%, realmente NVIDIA sigue siendo relativamente más rápida que su rival si AMD pudiese escalar más o menos paralelo en rendimiento por vatio consumido, que normalmente no es así.
Las diferencias se reducen cuando colocamos ocho de cada uno de ellos a la par. De ese 66,74% se pasa al 55,93%, y del 46,53% al 48,26%. La mejora en uno no compensa la pérdida en el otro escenario, por lo que podríamos decir que AMD escala mejor que NVIDIA en el rendimiento en servidores.
¿Qué ocurre si se incluye el GH200 y B200 a la ecuación con 144 GB / 180 GB y 1.000W? Pues que la diferencia de NVIDIA se multiplica varias veces, no tanto el GH200 que es más lento que el H200, sino por el B200, el cual es monstruoso, por ser realmente suaves. Y es que los datos no engañan: +367,79% y +426,76% frente al MI300X.
En definitiva, es de media casi 4 veces más rápida, endiabladamente rápida esta B200, y eso que incluye 12 GB menos de VRAM. Por ello, AMD tiene que seguir trabajando, porque Blackwell, en concreto el B200, ha dejado el listón varias veces más alto, tanto que ni Intel y los rojos juntos pueden frenar a los verdes, los cuales se están haciendo de oro, y con razón.