Elon Musk le pide a NVIDIA otras 100.000 GPU de IA para el Superordenador Colossus: «Es el sistema de entrenamiento más potente del mundo»

NVIDIA sigue marcando objetivos increíbles en su calendario, el último, de nuevo con Elon Musk. Y es que tras la machada que vimos de instalar 100.000 GPU en 19 días para xAI, ahora tanto el magnate como su homólogo en los verdes firman un nuevo acuerdo exactamente igual al anterior. Por ello, el Superordenador Colossus tendrá otras 100.000 GPU NVIDIA Hopper H100 más para ser el sistema de entrenamiento más potente del mundo, además, en suelo estadounidense.

El acuerdo viene precedido del anterior, y ambas partes quedaron tan satisfechas que van a repetir. Elon Musk tiene prisa, mucha prisa, por recortar la ventaja que tienen empresas como Google o Meta, y quiere posicionar a xAI a la altura de OpenAI y ChatGPT, o la mismísima Gemini, y para ello, necesita GPU, muchas GPU de IA.

Elon Musk acuerda con Jensen Huang dotar a Colossus de otras 100.000 GPU NVIDIA H100 para crear el superordenador más potente del mundo

Colossus-100.000-GPU-H100-para-xAI-en-19-días

El Clúster Colossus propiedad de xAI será el más rápido del planeta a golpe de talonario y de un hardware probado y más que probado por todos, inclusive la propia compañía de Elon Musk. El magnate, junto con NVIDIA, han hecho el anuncio del nuevo acuerdo después de batir todos los récords de tiempo en instalación por día y número de GPU, y ahora lo intentarán superar.

El objetivo es el mismo: dotar a Colossus de otras 100.000 GPU NVIDIA H100 basadas en al arquitectura Hopper, y hacer con ello un total de 200.000 gráficas para IA, una cifra que es demencial, solo hay que imaginar todos esos racks para pensar en la complejidad de la instalación en menos de 19 días.

Según informa la propia NVIDIA, la instalación total de Colossus, desde cero, fue de 122 días, de los cuales esos 19 nombrados se contabilizaron desde el momento en el que se colocó el primer bastidor en el suelo hasta que se comenzó la capacitación. Superar esos días será tremendamente complicado, pero ambas empresas están listas como bien han comentado en el comunicado de prensa.

La IA es una misión crítica para el futuro según NVIDIA

Server-Supermicro-NVIDIA-H100-para-Colossus-de-xAI

Las declaraciones no se han hecho esperar dada la complejidad del proyecto y de intentar batir dicho récord comentado. Por ello, diferentes personas de ambas empresas han comentado sus impresiones abiertamente. Por ejemplo, Gilad Shainer, vicepresidente sénior de redes de NVIDIA ha dejado claro que para su empresa la IA es algo crítico:

La IA se está convirtiendo en una misión crítica y requiere un mayor rendimiento, seguridad, escalabilidad y rentabilidad. La plataforma de redes Ethernet NVIDIA Spectrum-X está diseñada para proporcionar a innovadores como xAI un procesamiento, análisis y ejecución más rápidos de las cargas de trabajo de IA y, a su vez, acelera el desarrollo, la implementación y el tiempo de comercialización de las soluciones de IA”

Elon Musk fue más escueto, pero igualmente más directo:

"Colossus es el sistema de entrenamiento más potente del mundo. Buen trabajo del equipo de xAI, NVIDIA y nuestros numerosos socios y proveedores"

Desde su empresa deslizaron lo siguiente:

“xAI ha construido la supercomputadora más grande y potente del mundo. Las GPU Hopper y Spectrum-X de NVIDIA nos permiten ampliar los límites del entrenamiento de modelos de IA a gran escala, creando una fábrica de IA superacelerada y optimizada basada en el estándar Ethernet”.

Cabe recordar que en Spectrum-X está el conmutador Ethernet SN5600, pieza clave para poder llevar hasta 800 Gb/s hasta los ASIC Spectrum-4. ¿Podrá superar NVIDIA y xAI esos 19 días del récord anterior? En unos meses la respuesta.