Google no necesita a NVIDIA en IA: TPU v5p, hasta 12.288 cores y 95 GB de HBM para acelerar YouTube, Gmail, Android y Gemini, ¿más rápida que la H100?
Google presentó a Gemini, su nueva IA, pero lo que apenas tocó fue algo realmente novedoso dentro del mundo de hardware para este sector. Como ya sabemos, la gran G no usa hardware de segundos o terceros, ellos mismos crean el suyo propio como hacen cada vez más empresas punteras del Nasdaq. Pues bien, Google usa TPU, es decir, Unidades de Procesamiento Tensorial para trabajar con su IA, y ahora ha implementado y presentado oficialmente su última versión denominada como Google TPU v5p, la cual se jacta de ser igual de rápida e incluso más que el hardware de NVIDIA.
Exclusiva para el propósito de Google, dedicada a alimentar la hipercomputadora de IA que tiene la compañía y con un potencial de cálculo gigantesco, que si bien es cierto rivaliza con el hardware de los verdes, ya sabemos que esa rivalidad les durará poco. Pero igualmente, ¿qué tiene Google ahora en su hipercomputadora?
Google TPU v5p, lo mejor en hardware para IA en sus servidores
Como siempre ha pasado, Google no ha querido ofrecer demasiados datos técnicos amparados por el principio de la privacidad hacia sus diseños, pero sí que dio claves y números concretos interesantes. TPU v5p está formada por nada menos que 8.960 chips por cada POD, lo que supone superar el doble de su anterior versión, pero esto de por sí que ya es impresionante se queda en pañales cuando sabemos que la escalabilidad es todavía mayor.
Google afirma que, en concreto, ahora pueden escalar 4 veces más en cuanto a disponibilidad por FLOP dedicado a cada POD. Cada uno de estos POD pueden lograr una velocidad de 4.800 Gbps de Interconexión BW interchip, en parte por algo que ha logrado Google, y no es más que incluir una cantidad ingente de memoria.
Se entiende que es memoria HBM obviamente, por lo que han pasado de 32 GB en la versión v4 a nada menos que 95 GB de HBM, y no, no es un error, son 95 GB exactamente a 2.765 GBps. La topología de interconexión entre TPU se realiza con Torus 3D.
Una topología de interconexión increíble
Desde 2x2x1 con 8 núcleos y 4 chips, hasta 16x16x24 con 12.288 Cores y 6.144 chips en 1.536 máquinas nada menos, algo que si hablamos de Multislice aumenta hasta los 18.432 chips. ¿Qué hay del rendimiento? Pues todo es realmente opaco. Google ha dado pocos datos aquí, a saber, TPU v5p es 2,8 veces más rápido que v4 y su relación calidad precio es de 2,1x mejor.
Dado que TPU en su versión v5p es la más rápida de Google, se estima según los FLOP ofrecidos por Google que es entre 3,4 veces y 4,8 veces más rápida que la NVIDIA A100, algo que no es impresionante en primer término.
Pero si tenemos en cuenta que la GPU de NVIDIA obtiene una desventaja similar con la actual H100, entonces sí que podríamos decir que Google y su TPU v5p estaría a la altura o quizás un poco por encima de los verdes. Igualmente, esto es algo que tendrán que demostrar con datos empíricos, si es que quieren un poco de publicidad extra para posicionarse como líderes momentáneos de 2024 en hardware de IA.