DeepSeek R1 671B, la mejor IA de China requiere un PC de la NASA, ¿lleva razón NVIDIA?
Desde hace ya varios años hemos considerado a OpenAI como la compañía que inició este gran interés en la inteligencia artificial gracias a ChatGPT. Si bien este es considerado el chatbot más popular y usado en todo el mundo, el modelo de IA que utiliza no es precisamente el más avanzado, pues a OpenAI le ha salido competencia. Compañías estadounidenses como Google y Anthropic mostraron como sus modelos de IA Gemini y Claude podían ser superiores a GPT-4/4o de OpenAI y esta lanzó o1 como el primer modelo con razonamiento que sería mejor en ciertas tareas. Sin embargo, nadie se esperaba que China entrase a competir y ni mucho menos que superase a las grandes empresas estadounidenses, pero DeepSeek consiguió lo imposible. Ahora se ha analizado DeepSeek R1 671B para ver como funciona el modelo de IA más complejo de China.
Fue a finales de 2022 cuando la IA generativa tuvo su gran momento con el lanzamiento de ChatGPT y aunque hacía un tiempo que habíamos visto de lo que era capaz la inteligencia artificial, al final fue el chatbot de OpenAI el que la popularizó. Desde ese momento, todo ha sido hablar de IA y las grandes compañías han invertido miles de millones para poder ser competencia de esta compañía y su popular asistente virtual. En 2023 empezaron las ventas masivas de GPU de NVIDIA para IA, haciendo que la compañía se hiciese de oro y experimentó un crecimiento enorme.
Prueban DeepSeek R1 671B, el modelo de IA más complejo y avanzado de China
NVIDIA pasó de estar en el Top 10 al Top 1 en cuestión de un año y la demanda por sus GPU era tan grande que había tiempos de espera de meses para poder recibir las nuevas. La compañía de Jensen Huang estuvo creciendo sin parar y sus acciones se dispararon a lo largo de 2023 y hasta principios de 2024. Pero ha sido muy recientemente cuando hemos visto una enorme caída de NVIDIA, pues ayer vimos que había perdido cerca de 384.000 millones de dólares y hoy tiene pérdidas de más de 500.000 millones. Esto se produjo por el hecho de que el modelo de IA DeepSeek R1 de origen chino ofrece mejores resultados que otros modelos de IA estadounidenses y todo esto entrenándose con unas 50.000 GPU NVIDIA H100, una cifra menor de lo esperado.
Ahora nos toca ver pruebas de DeepSeek R1 para ver de lo que es capaz de hacer y como es su rendimiento. Matthew Berman se ha encargado de realizar las pruebas y este ha empezado con un test de deletrear una palabra y decir cuantas veces aparece la letra R, algo que era sencillo. La siguiente prueba es más compleja, pues le ha pedido escribir el código en Python para poder crear el popular juego Snake. La IA china empieza a escribir como haría esto y da explicaciones de cada uno de los pasos y planificación, como si fuese un ser humano explicando el proceso previo a escribir el código. Tras una larga explicación, tenemos el código escrito al final con unas 120 líneas. Tras probarlo, podemos ver que efectivamente se trata de un juego de la serpiente muy sencillo pero funcional.
El hardware empleado es una auténtica barbaridad con más de 2 TB de RAM y 8 GPU AMD con 192 GB de VRAM cada una
El YouTuber indica que este DeepSeek R1 es el modelo con 671B de parámetros, el cual ocupa 131 GB tras una reducción del 80% del espacio original de 720 GB. Este ya avisa que con una GPU de PC gaming no será suficiente, pues aquí se requiere de una burrada de VRAM y aunque la RTX 5090 tiene 32 GB, es muy probable que no pueda con este modelo. La siguiente prueba es escribir el código de Tetris en Python y de nuevo vemos que funciona sin problemas. Los resultados son buenos y en cuanto a rendimiento, a Matthew le funciona bien, pero lo que decíamos antes, vas a necesitar hardware muy caro para poder usar este modelo de IA en concreto.
Podemos ver que en lugar de tener un PC ha empleado Vultr, con un servidor que dispone de un procesador EPYC 9534 de 128 núcleos, 2,32 TB de memoria RAM y 8 SSD NVMe de casi 4 TB cada uno. Por si todo esto te sabía a poco, lo más importante para la IA está en las gráficas y aquí es donde menciona que se usan nada menos que 8 AMD Instinct MI300X de 192 GB cada una. Para tener un buen rendimiento y que este modelo de DeepSeek 671B funcione, ya has visto que necesitas hardware que es muchísimo más potente que las típicas gráficas de AMD y NVIDIA para juegos.