Moore Threads lanza su GPU MTT S4000 con 48 GB de VRAM para aceleración de IA

El fabricante de GPU chino Moore Threads anunció el lanzamiento de su primera tarjeta gráfica enfocada a la aceleración de IA, hablamos de la MTT S4000. Fabricada en el Centro de Computación Inteligente KUAE de Moore Thread, esta se trata de la primera GPU para IA creada a gran escala en China basada "completamente con tecnología de producción nacional".

Moore Threads inició y estableció "Moore Threads PES - KUAE Computing Alliance" y "Moore Threads PES - Large Model Ecology Alliance" con numerosos socios de las Naciones Unidas, para consolidar el ecosistema integrado de grandes modelos nacionales, que abarca desde la infraestructura de computación hasta la formación y el razonamiento de grandes modelos. Juntos, consolidarán la ecología integrada de los grandes modelos nacionales, desde la infraestructura de computación intelectual hasta la formación y el razonamiento de grandes modelos, y seguirán acelerando el desarrollo de la industria china de grandes modelos.

Esto es lo que ofrece la GPU Moore Threads MTT S4000

Moore Threads MTT S4000 - especificaciones

La Moore Threads MTT S4000 hace uso de una configuración de 4.096 núcleos basados en su propia arquitectura MUSA de 3ª Generación. Esto se traduce en un rendimiento computacional de 25 TFLOPs en FP32. Seguimos con 50 TFLOPS en TF32; 100 TFLOPS FP16 & BF16; y terminamos con 200 TOPS en INT8. Este chip gráfico queda unido a 48 GB de memoria GDDR6 capaz de alcanzar un ancho de banda de 768 GB/s. Hace uso de la interfaz PCI-Express 4.0 x16, y cuenta con 4x salidas de vídeo DisplayPort. Es capaz de codificar 96 streams de vídeo de forma simultánea a una resolución 1080p.

Basada en la tecnología MTLink 1.0 de desarrollo propio, la MTT S4000 puede soportar interconexiones multitarjeta. También ayudar a acelerar la computación distribuida de cientos de miles de millones de modelos de gran tamaño. Al mismo tiempo, MTT S4000 proporciona capacidades avanzadas de renderizado de gráficos, capacidades de códec de vídeo y capacidades de visualización de vídeo 8K HDR de ultra alta definición. Esto implica servir para la computación de IA, renderizado de gráficos, multimedia y otros escenarios de aplicaciones integradas.

Y lo que es más importante. Con la herramienta de desarrollo interno MUSIFY, la tarjeta MTT S4000 puede aprovechar al máximo el ecosistema de software CUDA (NVIDIA) existente. Puede realizar una migración de código CUDA a la plataforma MUSA a coste cero.

Moore Threads MTT S4000 y KUAE Computing Alliance

Moore Threads KUAE Intelligent Computing Centre es una solución full-stack que integra software y hardware, incluyendo KUAE Computing Cluster como infraestructura central. La plataforma de gestión de clusters KUAE Platform y los servicios de modelado KUAE ModelStudio, y que está diseñada para resolver la construcción, operación y gestión de la potencia de cálculo de la GPU a gran escala de forma integrada.

La solución está diseñada para resolver la construcción y la gestión de la operación de la potencia de cálculo de la GPU a gran escala en un enfoque de entrega integrada. La solución puede utilizarse de forma inmediata, lo que reduce enormemente el coste de tiempo de la construcción tradicional de la potencia de cálculo, el desarrollo de aplicaciones y la creación de la plataforma de operación y mantenimiento, y logra un rápido lanzamiento al mercado y la explotación comercial.

Resto de la información

Moore Threads MTT S4000 y KUAE Computing Alliance

La GPU Moore Threads MTT S4000 admite el entrenamiento y la puesta a punto de todo tipo de modelos de gran tamaño. Entre ellos tenemos LLaMA, GLM, Aquila, Baichuan, GPT, Bloom o Yuyin. Basándose en el clúster Moore Threads KUAE Kilocalorie, el entrenamiento de grandes modelos con parámetros de 70B a 130B, el ratio de aceleración lineal puede alcanzar el 91%. Por otro lado, el índice de utilización aritmética se mantiene básicamente igual.

Tomando como ejemplo un volumen de datos de entrenamiento de 200.000 millones, el modelo Aquila2 de 70.000 millones de parámetros del Wisdom Source Research Institute, puede completar el entrenamiento en 33 días. El modelo a escala de 130.000 millones de parámetros puede completar el entrenamiento en 56 días. Además, el clúster Moore Threads KUAE Kilocalorie admite un funcionamiento estable continuo prolongado, admite la formación de renovación de puntos de interrupción y el punto de control asíncrono es inferior a 2 minutos.

Si bien desconocemos cuánto tiempo requeriría una GPU de AMD o NVIDIA, poco importa. Básicamente China ya está sentando las bases de su propio hardware de alto rendimiento para aceleración de IA.