El Superordenador para IA de Google es más rápido y eficiente que el de NVIDIA

A diferencia de NVIDIA y sus DGX o simplemente sus chips, Google guarda con recelo los detalles más importantes de sus Superordenadores basados en TPU o Tensor Processing Unit. Pero ayer dio a conocer algunos detalles más que han llamado la atención de muchos, puesto que algunas de las IA entrenadas por Google más famosas como las de Midjourney han sido bajo sus Superordenadores, desvelando que estos son más rápidos que los que tiene NVIDIA con sus A100.

Google trabaja de una forma similar a NVIDIA, aunque personalizada. No tiene que vender chips como tal, así que los crea bajo sus propias necesidades y eso, por norma general, les reporta un mayor rendimiento. El mejor ejemplo, aunque vago en pruebas o datos, lo han ofrecido dos de los ingenieros de la compañía.

Los modelos de IA para Google son tan complejos que necesitan varios Superordenadores

Google-TPU

Los TPU personalizados de la gran G son un misterio, pero sí que sabemos que a veces se abren a empresas externas para que estas trabajen en proyectos específicos. El 90% del trabajo de Google con los TPU es solo para su propia IA, donde se balancea en diversos proyectos desde lenguaje, texto o imágenes.

Teniendo en cuenta que se lanzó hace poco más de dos años, Google TPU está en su cuarta generación y ahora sabemos que los más de 4.000 chips que lo integran con un tamaño colosal general tiene una particularidad que NVIDIA ha lanzado en algunos de los superordenadores que se han proyectado con sus chips H100: switch ópticos de enlace.

Estos conectan las máquinas a una velocidad altísima (no desvelada, por supuesto), permitiendo que el rendimiento escale en alguna unidad de medida (tampoco especificada). El porqué de esto tiene un motivo: los modelos de lenguaje o de generación de imágenes son demasiado grandes, tienen un tamaño a procesar muy alto, y por lo tanto, deben dividirse en miles de chips paralelizando la carga.

Google ha conseguido enlazar esos chips a unas velocidades más altas que NVIDIA, permitiendo que un modelo propio como es PaLM se haya podido entrenar dividiendo el mismo en dos Superordenadores TPU de 4.000 chips cada uno con un tiempo total de trabajo de 50 días.

Google TPU de cuarta generación: más rápido y eficientes que los Superordenadores NVIDIA con A100

Google-TPU-vs-NVIDIA-A100

Y es que aquí está la clave. Teniendo en cuenta que Google TPU de cuarta generación fue lanzado a finales de 2020 y entró a funcionar a pleno rendimiento a principios de 2021, su rival técnico en tiempo fue la GPU NVIDIA A100, la cual dominaba con mano de hierro (22 de junio de 2020).

Pues bien, en el documento de ayer publicado por Google la compañía dio un dato clave teniendo en mente las fechas arriba comentadas. Y es que llegando pocos meses más tarde, Google consiguió superar a NVIDIA y su A100. Para ser concretos, la gran G ofreció, ahora sí, unos datos espectaculares, ya que su TPU de cuarta generación como chip individual (no el conjunto de Superordenador) es hasta 1,7 veces más rápido y 1,9 veces más eficiente energéticamente que un A100 de NVIDIA.

Pero, ¿cómo queda ahora mismo frente al H100 actual? Pues Google dijo que no los ha comparado porque este chip llegó hace poco al mercado. Igualmente, deslizaron y dejaron caer que podrían estar trabajando en un nuevo TPU que competiría con este H100 o incluso lo superaría, aunque como era de esperar, no ofrecieron detalles.