Google Cloud TPU v5p: 8.960 chips interconectados para dar vida a la IA Gemini 1.0

Junto al lanzamiento de su IA Gemini 1.0, Google también anunció un nuevo hardware para darle vida, su Cloud TPU v5p. Por desgracia, Google no da tantos detalles como nos gustaría, pero conocemos que estamos ante el hardware más rentable que ha sido capaz de crear Google para acelerar la IA. Para que nos hagamos una idea, su TPU (Unidad de Procesamiento Tensorial en la Nube) cobra vida por medio de la interconexión de nada menos que 8.960 chips. Cada chip cuenta con una interconexión con un enorme ancho de banda de 4.800 Gbps.

Esto es un notable salto respecto a los 4.096 chips por pod ofrecido por el Cloud TPU v4. También el ancho de banda se ha conseguido duplicar, pasando así 2.400 Gbps a los actuales 4.800 Gbps. Si hablamos de rendimiento Bf16, el TPU v5p ofrece un rendimiento de 459 TFLOPs respecto a los 275 TFLOPs del TPU v4. Quizás lo más interesante, es que pasamos de no tener rendimiento Int8 (dato entero de 8 bits en programación), a un rendimiento de 918 TOPS. Para acabar, cada TPU v5p se acompaña de 95 GB de memoria HBM respecto a los 32 GB de su predecesor.

Cloud TPU v5p se ha usado para dar vida a IA de Google: Gemini 1.0

Cloud TPU v5p acelerar IA

En lo que respecta al entrenamiento de modelos, Cloud TPU v5p muestra un salto generacional de 2,8 veces en las velocidades de entrenamiento en el modelo de lenguaje LLM. Google también ha creado espacio para exprimir más potencia de cálculo, ya que la TPU v5p es "4 veces más escalable que la TPU v4 en términos de FLOPs totales disponibles por pod".

En concreto, estas son las ventajas de Cloud TPU v5p respecto a su predecesor (TPU v4):

  • 2 veces más Flops que la TPU v4 (459 TFLOPs Bf16 / 918 TOPs INT8)
  • 3 veces más capacidad de memoria que la TPU v4 (95 GB HBM)
  • Entrenamiento LLM 2,8 veces más rápido
  • 1,9 veces más rapidez en el entrenamiento de modelos de incrustación densa
  • 2,25 veces más ancho de banda que la TPU v4 (2.765 GB/s frente a 1.228 GB/s)
  • 2 veces más ancho de banda de interconexión entre chips que en TPU v4 (4.800 Gbps frente a 2.400 Gbps)

Los modelos de IA generativa (gen AI) están evolucionando rápidamente y ofrecen una sofisticación y capacidad incomparables. Este avance permite a las empresas y desarrolladores de diversas industrias resolver problemas complejos y desbloquear nuevas oportunidades. Sin embargo, el crecimiento de los modelos de IA de generación (con un aumento de diez veces en los parámetros anualmente durante los últimos cinco años ) plantea mayores requisitos de entrenamiento, ajuste e inferencia. Los modelos más grandes de hoy, que incluyen cientos de miles de millones o incluso billones de parámetros, requieren extensos períodos de entrenamiento, que a veces abarcan meses, incluso en los sistemas más especializados.

Hoy, para abordar estos desafíos, nos complace anunciar Cloud TPU v5p, nuestro acelerador de IA más potente, escalable y flexible hasta el momento. Las TPU han sido durante mucho tiempo la base para capacitar y ofrecer productos impulsados ​​por inteligencia artificial como YouTube, Gmail, Google Maps, Google Play y Android. De hecho, Gemini, el modelo de IA más capaz y general de Google anunciado ayer, fue entrenado y funciona utilizando TPU.

Google también presentó su AI Hypercomputer

Por otro lado, Google Cloud anunció su AI Hypercomputer junto a este Cloud TPU v5p. Google lo describe como una arquitectura de supercomputadora innovadora que emplea un sistema integrado de hardware de rendimiento optimizado, software abierto, frameworks de Machine Learning y modelos de consumo flexibles. Básicamente, su propio superordenador basado en su hardware.

Lograr escala y velocidad es necesario, pero no es suficiente para satisfacer las necesidades de las aplicaciones y servicios modernos de IA/ML. Los componentes de hardware y software deben unirse en un sistema informático integrado, fácil de usar, seguro y confiable. En Google, hemos realizado décadas de investigación y desarrollo sobre este mismo problema, que culminaron en AI Hypercomputer, un sistema de tecnologías optimizadas para trabajar en conjunto para permitir cargas de trabajo de IA modernas.