Maia 100: el primer chip de IA personalizado de Microsoft para evitar la dependencia de NVIDIA

Microsoft quiere evitar la dependencia del hardware, y para ello ha anunciado su chip especializado para IA bautizado como Maia 100. Microsoft se une así a un selecto grupo de compañías que han comenzado a crear sus propios aceleradores de IA para evitar esta dependencia de NVIDIA. Esta dependencia únicamente implica largos periodos de espera para acceder al hardware necesario. Por no hablar de unos altos precios.

Maia 100 es un enorme chip de 820 mm² que fue presentado durante la Hot Chips 2024. Evidentemente, este chip comenzará a funcionar en los propios servidores de la compañía Azure. Microsoft indica que el Maia 100 es uno de los mayores procesadores fabricados con la tecnología de 5 nm de TSMC del mundo. Este ha sido diseñado expresamente para gestionar tareas de IA extensas en la plataforma Azure. Lo que añade un valor añadido sobre NVIDIA.

Especificaciones conocidas del Microsoft Maia 100

Microsoft Maia 100 acelerador de IA

El Maia 100 es un chip de 820 mm² fabricado por TSMC con el proceso N5 con la tecnología COWOS-S. Este emplea un diseño chiplet con cuatro tiles por clúster y 16 clústers por SoC. Cada clúster ofrece un tile TTU (motor tensorial), TVP (motor vectorial), TDMA (motor de movimiento de datos), y TCP (procesadores de control). A estos se le suma una generosa cantidad de memoria caché SRAM. En total, hablamos de 500 MB de memoria caché L1 y L2. Este chip se acompaña de 64 GB de memoria HBM2E con un ancho de banda de 1,8 Tbps.

La información conocida pasa por una red de fondo con un ancho de banda de 600 GB/s, un ancho de banda del host de 32 GB/s por medio de la interfaz PCI-Express 5.0 x8. A nivel de consumo, se ha diseñado para tener un TDP de 700W. Aunque se espera un TDP previsto de 500W. El Maia 100 utiliza una conexión de red basada en Ethernet con un protocolo especial similar a RoCE. Este puede manejar hasta 4.800 Gbps para determinadas operaciones de datos.

Microsoft Maia 100 acelerador de IA

Características principales

  • Una unidad tensorial de alta velocidad (16xRx16) ofrece un procesamiento rápido para la formación y la inferencia, al tiempo que admite una amplia gama de tipos de datos, incluidos los de baja precisión, como el formato de datos MX, introducido por primera vez por Microsoft a través del Consorcio MX en 2023.
  • El procesador vectorial es un motor superescalar de acoplamiento flexible construido con una arquitectura de conjunto de instrucciones (ISA) personalizada para admitir una amplia gama de tipos de datos, incluidos FP32 y BF16.
  • Un motor de acceso directo a memoria (DMA) admite diferentes esquemas de fragmentación de tensor.
  • Los semáforos hardware permiten la programación asíncrona en el sistema Maia.

Por desgracia, no se ofrece ninguna prueba de rendimiento

Microsoft Maia 100 acelerador de IA - especificaciones

A lo largo de la nota de prensa, se indica que el Maia 100 ofrece numerosas ventajas gracias a la optimización de rendimiento y eficiencia energética. Todo ello también repercute en una reducción de costes. Se indica también que los desarrolladores pueden optimizar la carga de trabajo sin sacrificar la eficiencia y la capacidad para dirigir cargas de trabajo de IA. Se habla mucho de mejoras de rendimiento, pero en ningún momento se ofrece un ejemplo práctico para saber cuál es su rendimiento respecto a las soluciones actuales que existen en el mercado.

Evidentemente poco importa. Es el primer paso. Puede ser mucho menos potente que la solución de NVIDIA. Pero si también es mucho más eficiente, y sobre todo, económico, poco importa.

Maia 100 es el acelerador de IA personalizado de primera generación de Microsoft, diseñado específicamente para cargas de trabajo de IA a gran escala desplegadas en Azure. Integrado verticalmente para optimizar el rendimiento y reducir los costes, el sistema Maia 100 incluye una arquitectura de plataforma con placas de servidor personalizadas con bastidores a medida y una pila de software creada para aumentar el rendimiento y la rentabilidad de las capacidades avanzadas de IA en servicios como Azure OpenAI Services.

La arquitectura de Maia 100, adaptada a las necesidades modernas de aprendizaje automático, refleja la aplicación de una investigación minuciosa en sistemas de IA para lograr una velocidad de cálculo, un rendimiento y una precisión óptimos.