Intel duplica el rendimiento de Gaudi 2 y casi se iguala a NVIDIA en IA con un coste menor, ¿adiós monopolio?
Intel avisó hace unos meses de que lo que venía con Gaudi 2 era realmente interesante para el sector de la IA y que se posicionaría como una mejor opción que NVIDIA en rendimiento/precio que los verdes... Y ha cumplido. Los datos que anticipó Chipzilla eran realmente increíbles, puesto que dijo que aumentaría el rendimiento de su acelerador en nada menos que un 90% gracias a las novedades y mejores de su software. Pues bien, la mejora no es de ese 90%, ya que Intel anuncia que Gaudi 2 ha logrado un +103%, lo que la deja realmente cerca del H100 de NVIDIA, muy cerca, hasta el punto de que es a día de hoy la única alternativa para GPT-3 MLPerf, y con mejor ratio.
El equipo de Habana Labs está que se sale, literalmente. Está rompiendo los esquemas que la propia Intel fija dentro del Deep Learning para IA, y la viva muestra de ello son los datos que han lanzado de cara a abrirse todavía más camino en este sector que domina NVIDIA con mano de hierro... Por ahora.
Intel Gaudi 2 duplica su rendimiento en GPT-3 MLPerf, ¿el principio del fin del monopolio de Huang?
Podría serlo, perfectamente, al menos hasta que llegue el B100. No hay que quitar mérito a los chicos de Habana Labs, porque lo presentado con GPT-3 en MLPerf muestran el comentado 103% de mejora, y todo en solamente 5 meses de diferencia. Esto es una muestra de lo que tiene que trabajar Intel en su software y de lo que puede llegar a conseguir en menos de medio año.
En concreto, con 384 aceleradores Gaudi 2 Intel consiguió bajar el tiempo de 311,94 minutos a nada menos que 153,58 minutos, o lo que es igual, de 5,2 horas a 2,55 horas. Pero los datos no acaban aquí, puesto que Intel también ha ofrecido el rendimiento comparativo en GPTJ-99 en servidor y offline, con datos que sorprenden y mucho dada la juventud de su hardware en comparación con la maduración del de NVIDIA.
Un 9% por detrás en Server y un 28% en Offline
Los datos comparativos contra la H100 son realmente impresionantes, puesto que la mejor GPU del mercado solo consigue endosarle un 9% en GPTJ-99 Server y un 28%, ambas pruebas con 8 aceleradores. Lo mejor de esto no es la poca distancia que tiene ahora Intel comparado con lo que pronosticó en junio, sino el hecho de que la precisión de los cálculos en FP8 es del 99,9%, casi perfectos.
En cuanto a la GH200-96G, los datos la sitúan un 12% por encima en Server y un 27% por encima en Offline, más impresionante si cabe el rendimiento que ofrece Gaudi 2 en GPTJ-99. Intel comentó lo siguiente sobre los datos aportados:
- Gaudi2 demostró un salto de rendimiento 2 veces mayor con la implementación del tipo de datos FP8 en el punto de referencia de entrenamiento GPT-3 v3.1, reduciendo el tiempo de entrenamiento a más de la mitad en comparación con el punto de referencia MLPerf de junio, completando el entrenamiento en 153,58 minutos en 384 Aceleradores Intel Gaudi2. El acelerador Gaudi2 admite FP8 en formatos E5M2 y E4M3, con la opción de escalado retrasado cuando sea necesario.
- Intel Gaudi2 demostró el entrenamiento en el modelo multimodal Stable Diffusion con 64 aceleradores en 20,2 minutos, utilizando BF16. En futuros puntos de referencia de entrenamiento de MLPerf, el rendimiento de Difusión estable se presentará en el tipo de datos FP8.
- En ocho aceleradores Intel Gaudi2, los resultados de las pruebas comparativas fueron 13,27 y 15,92 minutos para BERT y ResNet-50, respectivamente, utilizando BF16.
- Acerca de los resultados de Xeon de cuarta generación: Intel sigue siendo el único proveedor de CPU que envía resultados de MLPerf. Los resultados de MLPerf para 4th Gen Xeon resaltaron su sólido desempeño:
- Intel presentó resultados para RESNet50, RetinaNet, BERT y DLRM dcnv2. Los resultados de los procesadores escalables Intel Xeon de cuarta generación para ResNet50, RetinaNet y BERT fueron similares a los sólidos resultados de rendimiento listos para usar presentados para la prueba comparativa MLPerf de junio de 2023.
- DLRM dcnv2 es un nuevo modelo presentado en junio, en el que la CPU demuestra un tiempo de entrenamiento de 227 minutos utilizando solo cuatro nodos.