¿Será AMD irrelevante en IA frente a NVIDIA a pesar de su nuevo Instinct MI300?

Sobre el papel y en foto, el AMD Instinct MI300 asusta, sin embargo, la realidad es otra. La situación de AMD en un mundo donde la IA está en auge es precaria y en una clara desventaja frente a sus rivales que son Intel y NVIDIA. ¿Es la combinación de CPU Zen 4 con GPU CDNA 3 producto de un liderazgo en diseño o parte de un fiasco comercial?

Si existe una línea de producto de AMD con la Espada de Damocles encima, esta es sin duda CDNA. El tercer intento, después de dos sonoros fracasos, combina procesador, memoria y tarjeta gráfica en una sola pieza para luchar contra sus rivales, pero especialmente es más bien una muestra para el desarrollo de futuros Interposers o Base chips que la empresa de Lisa Su utilizará en diseños futuros.

AMD no se beneficiará del boom de la IA con su MI300

AMD Instinct MI300

Y no lo decimos nosotros, sino que Dylan Patel en uno de sus artículos recientes deja bien claro que AMD en el mundo de la inteligencia artificial es apenas una nota a pie de página. Y su afirmación se encuentra justificada por el hecho de que la empresa de Lisa Su va de fracaso en fracaso en el mundo de la IA. No solo han ignorado dicha disciplina informática en ciernes en los últimos años en todas sus gamas de productos, hasta el punto de tener que depender en futuros productos de la tecnología heredada tras la compra de Xilinx.

En especial, el mayor problema que se han enfrentado es que sus AMD Instinct, sus GPU para computación de alto rendimiento e IA, cuyas rivales son las A100 y H100 de NVIDIA, pues no venden y son un auténtico fracaso comercial. De hecho, el éxito de la marca de Jen Hsen Huang en centros de datos es tal que supera al que tienen en el mundo del PC Gaming. Es decir, las arquitecturas CDNA no son nada y para colmo no consiguen emparejar sus EPYC con la tarjeta gráfica más potente y popular de NVIDIA en este momento. Ya sea por el hecho que la propia NVIDIA la vende con Grace o por el hecho que el mayor rendimiento en IA de Sapphire Rapids los hace mejores compañeros.

Por lo que la empresa de Lisa Su, más por salvar a CDNA que no a EPYC, ha decidido lanzar la misma tecnología que han hecho para construir el superordenador El Capitan en forma de AMD Instinct MI300, ¿El objetivo? Lanzar una opción totalmente AMD que incluya CPU, GPU y memoria en una sola pieza. La cual a su vez es la más compleja creada hasta la fecha por TSMC.

La parte fuerte es la computación de alto rendimiento

AMD-Instinct-MI300

Mientras que NVIDIA ha apostado por tener un chip, el H100, capaz de entregar potencia al mercado de la computación de alto rendimiento y al de la IA, desde AMD en decidido centrarse en exclusiva en el mercado HPC y si bien en CDNA 3 tenemos unidades tipo GEMM/Tensoriales/Matriciales en su interior, toda la fuerza la han centrado en conseguir el mayor rendimiento posible en coma flotante de doble precisión, lo cual es clave en el mundo científico.

Y es que el diseño de AMD tiene una serie de ventajas por encima del de NVIDIA, ¿su único handicap? Un menor rendimiento de cara a la IA debido a que sus unidades para ello no son tan avanzadas como las de su rival, pero, en cambio:

  • Dispone de más memoria RAM disponible, 128 GB vs 80 GB.
  • El ancho de banda es superior, 3277 GB/s vs 1280 GB/s
  • Dispone de una mayor cantidad de unidades de coma flotante,
  • Es cuatro veces más rápida en coma flotante de 64 bits.

Sin embargo, pese a su mayor rendimiento, le está costando encontrar clientes a AMD para vender su diseño y es que la competencia se ha vuelto más feroz que nunca. Aunque por la enorme subida de precios de NVIDIA, AMD puede tener una oportunidad para vender su MI300.

La clave del diseño, la tecnología CoWoS-S de TSMC

Interposers CoWoS-S TSMC AMD

Sin embargo, la creación de un diseño de este tipo es una excelente oportunidad para implementar nuevas tecnologías que por motivos de costes el mercado doméstico no deja desplegarlas inicialmente. Y sin duda, uno de los puntos que tenemos muy claro que veremos en futuros diseños de AMD, especialmente en futuras tarjetas gráficas, es el uso de su Interposer bautizado como Elk Range. El cual mide 370  mm² y se trata de un Interposer activo, por lo que no solo se encarga de comunicar las diferentes partes, sino que además cada uno de ellos dispone de los siguientes elementos clave:

  • 2 controladores de memoria HBM3.
  • 64 MB de memoria caché de último nivel para darle coherencia total en el acceso a la RAM, tanto para CPU y GPU. Es decir, que compartan el mismo espacio de memoria.
  • Decodificadores de vídeo.
  • 36 líneas que pueden ser PCI Express, CXL o xGMI
  • Un NoC integrado para gestionar la comunicación entre núcleos.

La gracia de todo, es que no se trata de una pieza homogénea, sino que el AMD Instinct MI300 tiene cuatro Interposers intercomunicados entre sí. Esto les permite no tener que depender de un solo bloque extremadamente caro y poder escalar en número de unidades. Todo ello gracias al uso de la tecnología CoWoS-S de TSMC que es la que ha permitido ensamblar al AMD Instinct MI300.

Habrá cuatro diseños diferentes del MI300

Mi300 Foto

Con tal de llegar a un mayor número de mercados, AMD lanzará cuatro versiones distintas de su Mi300 en el mercado, las cuales son las siguientes:

  • MI300A es la misma unidad que se usa en el superordenador El Capitan, montado encima del socket SH5 LGA con cuatro unidades por placa dentro de dicha bestia. Por el momento es el único cliente que tiene AMD de sus Instinct MI300 y es que su diseño se creo paga ganar el contrato con dicho ordenador.
  • MI300X es la versión pensada para IA.
  • MI300C es la respuesta a Sapphire Rapids con memoria HBM.
  • MI300P es una versión recortada, con solo 2 Interposers Elk Range en vez de cuatro y con un consumo lo suficientemente recortado como para caber en forma de tarjeta PCI Express. Además, carece de la CPU, por lo que sigue el diseño de los modelos anteriores.

Todo ello sobre el papel y en las diapositivas está muy bien; sin embargo, la mayoría de los diseños no tienen todavía una red de clientes consolidada y AMD se está encontrando con problemas para conseguir llevar su tecnología más allá del mentado superordenador. En todo caso, no deja de ser un campo de pruebas y de desarrollo para futuros chips y diseños de AMD.