Google aumenta su rendimiento en IA 4,7 veces con sus nuevas TPU Trillium: el doble de ancho de banda, SparseCore 3ª Gen y +67% de eficiencia
La Google I/O 2024 que hemos tratado a fondo en el día de hoy dejó también algunas perlas curiosas, y otras que no se dieron, como el Pixel 9 y sus versiones. Normalmente, Google siempre ha presentado nuevo hardware en su conferencia, y cuando parecía que este año sería la excepción de la regla porque todo estaba siendo software e IA... Llegó Google Trillium, su nueva TPU de sexta generación que aumentará el rendimiento de los de la gran G en 4,7 veces.
No fue una presentación por todo lo alto, eso es cierto, y por ello los datos son bastante escuetos, hay que admitirlo, pero realmente, salvo que vayamos a contratar uno de sus servicios dentro del llamado AI Hypercomputer de Google Cloud, tampoco necesitamos, de momento, todos los datos de la arquitectura. Por ello, y como anticipo de la misma, veamos qué tiene la gran G para este 2024.
Google Trillium, la nueva TPU de sexta generación que da dos pasos adelante
Si NVIDIA dio entre 3 y 5 pasos hacia el futuro de la IA, hoy Google ha dado fácilmente dos en la dirección que ellos creen como la correcta. Y es que desde 2013, que se dice pronto, vieron la necesidad de dejar sistemas basados en GPU para crear sus propias TPU, y aquí estamos hoy con su sexta generación llamada Google Trillium.
Los de Santa Clara afirman que el rendimiento se ha multiplicado por 4,7 veces frente a las TPU v5e actuales de la anterior generación, lo cual indica que el salto es exponencial prácticamente, muy similar al que ha dado NVIDIA. Pero como en el caso de los verdes hay ciertas trampas en esta cifra tan "pomposa", ya que esta diferencia se ha conseguido gracias a ampliar el tamaño de las Unidades Matriciales Multiplicadoras (Matrix Multiply Units), más conocidas como MXU.
Las MXU son una parte crucial dentro de los TensorCore de Google, ya que pasarían a tener más de dos por cada TC junto a la unidad vectorial y a la unidad escalar. Para comprenderlo de forma sencilla y salvando las distancias en el símil, es como una GPU de NVIDIA a la que le quitamos los Shaders tradicionales y los RT Core, a muy groso modo.
Los MXU tienen multiplicadores de matrices de 128 x 128 como arrays sistólicos, lo que deja una potencia de cómputo de 16.000 operaciones de multiplicación y acumulación por cada ciclo. No sabemos si hay cambios ahí en concreto, pero sí que sabemos que la frecuencia de los mismos también se ha incrementado, así que de ahí llega una gran parte de ese aumento de 4,7 veces en el rendimiento, pero hay más.
SparseCores y duplicidad de los anchos de banda
Otra parte crucial de la arquitectura de Google Trillium es el hecho de que incluye SparseCore de tercera generación. Para los despistados, estos son procesadores de DataFlow que aceleran modelos concretos de LLM como los que se dan en los de tipo recomendación o de clasificación. Este tipo de algoritmos son muy eficientes y tienen una tarea fundamental para complementar a otros, así que, aunque no sabemos cuánto aportan al total, son fundamentales para poder lograr el aumento de rendimiento junto con las MXU dentro de los TensorCore.
Para finalizar este apartado, y aunque los datos son igualmente generales siguiendo la tendencia de lo que estamos viendo, Google habla de una duplicación de la capacidad y el ancho de banda tanto con la memoria HBM, así como entre chips. Entendemos que hacen referencia a HBM3e, pero no está especificado como tal.
Solo afirman que la eficiencia se ha mejorado, el rendimiento se ha multiplicado en estos términos y la latencia se ha reducido. Dado que esto también ocurre entre la interconexión de chips (pueden escalar hasta 256 TPU por servidor), reducir el ancho de banda ICI permite que los modelos de inferencia escalen mucho mejor, lo cual, también permite el escalado de los servidores por el mismo motivo.
Por todo ello, Google asegura que Trillium permite entrenar la próxima ola de modelos de IA con esta sexta generación de TPU, la cual es también más sostenible, puesto que estas mejoras proporcionan más de un 67% de eficiencia energética frente al las TPU v5e.