Raja Koduri tras trabajar en AMD e Intel: «Las GPU mandan en IA porque su competencia es deficiente en software»
En IA se está hablando casi en exclusiva de GPU en cuanto a hardware. No es menos cierto que hay un grupo de empresas que están diseñando aceleradores personalizados que, aseguran, ser más rápidas que las gráficas de NVIDIA. Y si bien eso puede ser parcialmente cierto, como es el caso de algún hardware de Google, Amazon o Microsoft, por ejemplo, o la misma Tesla, lo cierto es que la mayor parte del argumento presenta problemas. Por ello, y en un acto de sinceridad de Raja Koduri, explica los porqués sobre el hecho de que las GPU mandan, y mandarán en IA en el futuro salvo un giro drástico.
Teniendo en cuenta que Koduri está en la junta de Tenstorrent con Jim Keller al mando, las declaraciones están totalmente fuera del contexto de lo que se esperaría de alguien que toma decisiones en una empresa rival de NVIDIA. Y por ello, sabiendo el contexto y la experiencia laboral de Raja Koduri, ya que ha estado en S3, ATI, Apple, AMD, Intel y ahora la comentada Tenstorrent, sus declaraciones son muy jugosas para entender el cónclave que supone el hardware para IA.
Raja Koduri no ve a otro hardware quitándole el puesto de honor a las GPU para tareas de IA
En su primer comentario en X, Raja Koduri quiso repasar abiertamente cómo se plantea el 2024 para el hardware de IA. Afirmó lo obvio, que a principios de año solo estaba NVIDIA y para el año que viene estarán, al menos, Apple, AMD e Intel sumados a la competición. El comentario fue replicado por Bryan Beal afirmando que eso poco importaba, puesto que según este, el silicio especializado para IA es el futuro, no las GPU como tal, con modelos como los comentados de Amazon, Microsoft etc...
Ante dicho argumento, Raja Koduri quiso enfatizar y responder afirmando que las GPU para IA mandan:
Hemos escuchado esta afirmación desde 2016... Pero las GPU todavía mandan... ¿Por qué? Todavía estoy aprendiendo... Pero mis observaciones hasta ahora son: el "propósito" del silicio construido específicamente no es estable. La IA no es tan estática como algunas personas imaginaban y trivializaban...
"Es solo un montón de matrices multiplicadas": la arquitectura del sistema (cosas como las tablas de páginas, administración de memoria, manejo de interrupciones, depuración, etc.) de las GPU evolucionó durante 2 décadas y es un mal necesario para respaldar las pilas de software de producción... Muchos de los silicios especialmente construidos son deficientes aquí y arrojan la carga sobre la gente del "software".
No hay muchos nuevos talentos jóvenes en software de sistemas que ingresen a la fuerza laboral en estos días... Por lo que todos compiten por el mismo pequeño grupo de talentos veteranos. - pero sigo siendo optimista en cuanto a que evolucionará una nueva arquitectura con un nuevo propósito a partir de las lecciones aprendidas hasta ahora.
¿Cuánto importa el software en el hardware para IA a día de hoy?
Sabemos que la gran ventaja de NVIDIA aquí no está tanto en el hardware, que también, sino sobre todo en el apartado del software, algo que hemos repetido hasta la saciedad. Koduri pone un poco más de luz cuando al comentario de arriba le replican afirmando que una GPU actual como la H100 es un acelerador al 75%, que no está construido ni optimizado para nada más, a lo que el ingeniero contesta lo siguiente:
No importa qué porcentaje es la multiplicación de matrices si el desarrollador no puede desarrollarla... Lo que importa de manera desigual son las pequeñas puertas porcentuales que manejan toda la pila de software del sistema. Las herramientas GPU para computación (principalmente NVIDIA) se han mantenido bastante estables durante 17 años... No es que esté contando el tiempo.
Y remata en otro comentario dando datos más concretos de hacia a dónde va el mercado de la IA:
En los LLM abiertos, todavía encontramos una mejora de calidad notable con parámetros grandes y cuantificación de 16b. Si bien hay un rendimiento emocionante con la cuantificación 4b y los modelos más pequeños, todavía no hemos encontrado que ninguno de estos sea habitable en comparación con el mejor modelo cerrado.
¡También he visto que los científicos de datos están desarrollando nuevos modelos a partir de FP32! Esta es una de las razones por las que prefieren las GPU en sus configuraciones de desarrollo y muchos de ellos desarrollan en un PC. Hasta hace poco, NVIDIA era la única GPU que admitía una pila completa de software de computación de IA en un PC. Otros se están poniendo al día ahora.
Por lo tanto, CUDA es la gran arma de los de Jensen Huang. No importa realmente que alguien les cace en rendimiento, la polivalencia de las GPU y el software de los verdes hacen el resto, y por eso empresas como Intel saben de la importancia de OneAPI y de cómo es la manera de enfrentar a NVIDIA aquí. Esperemos que AMD comprenda esto mismo y se sume a la lucha por el software para su hardware de IA más temprano que tarde, porque si algo se les puede achacar por ahora a los de Lisa Su es un retraso en el desarrollo del ecosistema intangible.