AMD confiesa que un inversor quiso 1,2 millones de GPU para IA por cientos de millones de dólares
La presentación de AMD para con sus CPU EPYC Turin dejó muchos titulares y el enfrentamiento con Intel está servidor con Granite Rapids y Sierra Forest. Pero además, el nuevo roadmap de GPU reveló que AMD tiene algunos problemas frente al empuje de NVIDIA, aunque pelea por ponerse al día, y esto es muy interesante si lo cruzamos con la última entrevista que ha concedido Forrest Norrod a los compañeros de The Next Platform, puesto que hubo una propuesta indecente: fabricar 1,2 millones de GPU para un clúster de IA, ¿quién fue el loco que les pidió tal cantidad de unidades?
Dado que el sector de la IA va como un torpedo directo a su objetivo, sin titubeos y a una velocidad increíble, el mundo necesita cada vez más hardware para entrenar unos LLM más y más complejos que requieren de capacidad de cálculo sin igual. Hasta tal punto llega la locura que ni la propia AMD puede comprometerse a suministrar tantos aceleradores MI300 como quieren algunos.
AMD confirma que el sector de la IA está descontrolado y que las empresas no paran de pedir GPU
Aunque en la entrevista se habla de GPU, realmente se están refiriendo, obviamente, a los aceleradores también, porque es lo que diseña AMD y fabrica TSMC para ellos. Los compañeros de TNP con Timothy Prickett Morgan a la cabeza como entrevistador le hicieron algo más de 10 preguntas a Forrest Norrod, gerente general de negocio de los centros de datos de AMD, y las respuestas son realmente interesantes de conocer, pero nos quedaremos con algunas sorprendentes con el enfoque en la IA:
TPM: ¿Crees que el mundo puede fabricar suficientes GPU para el segundo escenario (LLM más complejos) en el que todos quieren modelos enormes con grandes cantidades de parámetros?
Forrest Norrod: Creo que sí. Porque, francamente, incluso para los modelos más grandes de los que estás hablando, es difícil para mí ver modelos de inferencia que sean mayores que, digamos, unos pocos racks. Eso en el peor de los casos. Y pienso que, debido a que existe tal incentivo, la inmensa mayoría de los modelos más grandes encajarán en un nodo para realizar inferencias.
Pero algunos de los grupos de formación que se están contemplando son realmente alucinantes...
Esto hace referencia a la necesidad del mundo de más hardware destinado a la IA, pero en este punto, ¿de cuántas GPU estamos hablando realmente? Pues Norrod deja a Morgan perplejo y evidencia el despropósito en el que está inmersa la IA y su hardware en estos momentos.
Aproximadamente 1,2 millones de GPU para un único clúster de IA
Pongamos la cifra en contexto para entender las declaraciones y los motivos de la respuesta de Norrod. Actualmente los clústeres más importantes de IA en el planeta están sobre las 50.000 a 60.000 GPU, lo cual es demencial por potencia, calor, tamaño y consumo. Pues bien, con estas cifras en mente veamos qué dijo Norrod en la entrevista:
TPM: ¿Cuál es el mayor grupo de entrenamiento de IA en el que alguien se fue en serio? No es necesario dar nombres. ¿Alguien se le acercó y le dijo con tus MIx00: necesito 1,2 millones de GPU o lo que sea?
Forrest Norrod: ¿Está en ese rango? Sí.
TPM: No se puede simplemente decir "está en ese rango". ¿Cuál es el número real más grande?
Forrest Norrod: Hablo muy en serio, está en ese rango.
TPM: Para un clúster.
Forrest Norrod: Sí, estoy hablando de un solo clúster.
TPM: Aturde un poco la mente, ¿sabes?
Forrest Norrod: Lo entiendo. La escala de lo que se está contemplando es alucinante. Ahora bien, ¿todo eso sucederá? No sé. Pero hay informes públicos de personas muy sobrias que están pensando en gastar decenas de miles de millones de dólares o incluso cien mil millones de dólares en clúster de entrenamiento para IA.
200 mil veces la capacidad de cómputo, ¿cómo va a suceder algo así en breve?
El cálculo simple nos indica que hay alguien dispuesto a gastar cientos de miles de millones para poder obtener 200 mil veces la capacidad de cálculos de los clústeres más grandes del planeta. Lógicamente, la propuesta y petición de esa empresa o persona se denegó porque no hay nadie en el mundo, ningún fabricante de chips, que tenga siquiera la capacidad de suministrar ni 100 veces el número de GPU que requiere esa empresa, no hablemos de multiplicar por 200 mil el número de chips en empresas como TSMC, Intel y Samsung.
Ni entre las tres podrían llegar a cuadruplicar los envíos a plena producción actual, simplemente es una propuesta imposible de cumplir en estos momentos, tan irreal que quizás jamás se pueda hacer en forma y tiempo. Solo muestra lo en serio que van algunas empresas o inversores con todo el sector de la IA y cómo sus propuestas, basadas en planes de acción empresarial, son de locura.