Meta MTIA V2: el acelerador para IA personalizado que triplica su potencia para no depender de NVIDIA

Meta va muy fuerte en lo que se refiere a IA, tanto desde el punto de vista del software, como del hardware. El mejor ejemplo de las promesas de Zuckerberg de hace unos meses lo tenemos hoy aquí, y es la segunda generación de MTIA, la cual promete un rendimiento y una escalabilidad muy mejorados frente a su primera versión. Este MTIA V2 triplica la potencia, duplica la cantidad de RAM y casi cuadruplica el consumo.

El anuncio se ha hecho, como cabría esperar, por todo lo alto. Meta quiere que tanto sus socios como su competencia vean su hardware, y manda un mensaje importante a mundo del hardware de la IA: tenemos tanto el dinero como el personal, el talento y la determinación de crear nuestro propio hardware optimizado, no dependeremos de NVIDIA. ¿Realmente pueden hacerlo? Pues a su manera, y como respuesta corta, sí, pueden lograrlo.

MTIA V2, el SoC para IA de Meta que da un salto cualitativo a costa de un mayor consumo

Alguien estará diciendo que no compensa mayor rendimiento a costa de mayor consumo, y el ejemplo es mismamente Intel y sus Core 14, que todavía están frescos. Pero Meta no juega en esos términos, de hecho, está totalmente lejos de ellos, y eso les da un margen interesante donde lo único que quieren es mantener el balance entre rendimiento/costes/consumo. Y lo han logrado otra vez.

Aunque la compañía diga públicamente que el equilibrio que buscan no es el ratio que hemos comentado, sino computación - ancho de banda - capacidad de memoria, lo cierto es que incluso para la IA, necesitas algo sostenible en consumo y costes, incluso si es a costa de rendimiento. Por ello, y siguiendo con la dialéctica de Meta, afirman que querían proporcionar más capacidad de SRAM frente a una GPU de NVIDIA para lograr una mayor utilización interna de las cargas en el hardware incluso con tamaños de lote pequeños.

Tiene sentido cuando tienes imágenes realmente pequeñas que trabajar, como en Facebook o Instagram, pero millones de ellas por procesar por segundo.

El hardware, un paso adelante que, sin embargo, no impresiona, ni lo necesita

Meta-MTIA-V2-socket-y-SoC

Como vimos en MTIA V1, Meta basa su arquitectura en lo que han denominado como Processing Elements o PE. La disposición de los mismos de forma física en el chip es a base de una cuadrícula de 8 x 8, lo cual no es nada usual. Esto es debido a la necesidad de alimentar la red PE con cuatro XBAR, por lo que el diseño debía ser simétrico en sus cuatro lados, donde debía aumentar en número de PE, dando como resultado dicha cuadrícula.

Estas XBAR son necesarias para aumentar el tamaño del almacenamiento disponible para cada PE, donde hacen de sistema de interconexión I/O entre la SRAM (duplicada) y el PHY de la RAM LPDDR5X. Esto da dos ventajas más clave: ancho de banda aumentado en 3,5 veces y el doble de memoria RAM disponible a trabajar (256 MB On-Chip y hasta 128 GB Off-Chip).

MTIA-V2-encapsuladoIHS-Meta-MTIA-V2

MTIA V2 está fabricado en TSMC N5, por lo que es un nodo relativamente moderno, ya maduro, con un coste asequible y en volumen suficiente para lo que necesita Meta. Su frecuencia es de 1,35 GHz, que son 550 MHz más que la versión primigenia, integrando además 2,35B de Gates en un tamaño realmente reducido de 25,6 mm x 16,4 mm, dando como resultado un área 421 mm2.

El voltaje aumenta un poco con respecto a la versión V1, pasando de 0,67V a 0,85V, por lo que en el conjunto del chip todo lo dicho hace que el TDP escale también en esta MTIA V2 hasta los 90W.

Un salto de rendimiento increíble en algunas áreas clave

MTIA-V2-diagrama-bloquesEncapsulado-y-distribución

El hardware no impresiona nada, pero tampoco lo pretende, no es su objetivo, sino la mejor eficiencia con un rendimiento en tareas concretas que sea superlativo. Y ahí sí que sorprende:

GEMM TOPS

  • 708 TFLOPS/s (INT8) (sparsity)
  • 354 TFLOPS/s (INT8)
  • 354 TFLOPS/s (FP16/BF16) (sparsity)
  • 177 TFLOPS/s (FP16/BF16)

SIMD TOPS

Vector core:

  • 11.06 TFLOPS/s (INT8),
  • 5.53 TFLOPS/s (FP16/BF16),
  • 2.76 TFLOPS/s (FP32)

SIMD:

  • 5.53 TFLOPS/s (INT8/FP16/BF16),
  • 2.76 TFLOPS/s (FP32)

Como vemos, hay datos interesantes. Por ejemplo, en GEMM TOPS INT8 se ha triplicado el rendimiento y en FP16 casi se habría cuadruplicado. En SIMD Vector con INT8 casi se multiplica por cuatro también, lo cual es realmente increíble para solo un salto generacional, más propio de NVIDIA que de Meta.

Para terminar, Meta asegura que han desarrollado MTIA V2 con el objetivo de admitir hasta 72 aceleradores por bastidor. Cada uno constará de tres chasis, y cada chasis de 12 placas con dos aceleradores cada una.

Software-Meta-Triton-Compiler

El apartado del software es otro gran punto a favor, puesto que han optimizado su pila de software para crear un backend del compilador Triton-MTIA. Esto generará código de alto rendimiento para su SoC, lo cual mejorará la producción de los desarrolladores al escribir código de GPU sin tener ninguna de ellas, no dependiendo así de NVIDIA para absolutamente nada.

Todo se hará con su compilador y su hardware, mostrando que la apuesta de 35 mil millones en IA que van a hacer tiene mucho sentido, es escalable y proporcionará un salto adelante de rendimiento, optimización, hardware y software cercano al que ha mostrado NVIDIA con Blackwell, salvo por la diferencia de potencia entre chips, obviamente.