NVIDIA hunde a AMD: su H100 es el doble de rápida que la recientemente anunciada AMD MI300X
Si bien AMD anunciaba hace una semana que su aceleradora de IA Instinct MI300X era hasta un 60% más rápida que la NVIDIA H100, ahora es NVIDIA la que dice que esto no es así. En la presentación de su nueva GPU para IA y computación de alto rendimiento, AMD afirmó que su Instinct MI300X era significativamente más rápida que la GPU NVIDIA H100 en cargas de trabajo de inferencia.
Ahora, una semana después, NVIDIA se ha tomado la molestia de enseñarle la dura realidad en lo que respecta a dónde está AMD en términos de aceleración de IA. Básicamente, indicó que cuando la carga de trabajo se optimiza adecuadamente, los sistemas basados en una GPU AMD Instinct MI300X no tienen nada que hacer con sus sistemas basados en la NVIDIA H100.
NVIDIA afirma que AMD hizo trampa para ensalzar el rendimiento de la Instinct MI300X respecto a su H100
En concreto, NVIDIA afirmó que en las pruebas de rendimiento realizadas por AMD, no utilizó el software optimizado para sus sistemas DGX H100. Es por ello que la comparativa de rendimiento respecto a un sistema con GPU Instinct MI300X es realmente engañosa y no se representa el rendimiento real.
De esta forma, NVIDIA se ha tomado la molestia de hacer bien el trabajo de AMD. En concreto realizar la comparativa de rendimiento empleando un software optimizado. Y con optimizado, nos referimos a algo tan importante como usar los CUDA Cores de sus GPU. Hablamos de un framework de computación paralela (CUDA), junto a un versátil conjunto de herramientas (que utilizan CUDA), junto a unos algoritmos altamente refinados (optimizaciones). NVIDIA indica que si no tienes en cuenta ninguno de estos puntos, es evidente que el ritmo será inferior.
Según NVIDIA, su TensorRT-LLM incorpora optimizaciones avanzadas del núcleo adaptadas a la arquitectura Hopper, un factor crucial para el rendimiento de su H100 y otras GPU similares. Este ajuste permite que modelos de inferencia, como Llama 2 70B, ejecuten operaciones FP8 aceleradas en las GPU H100 sin comprometer la precisión de las inferencias.
Los resultados compartidos no utilizaron software optimizado, y la H100, si se compara correctamente, es 2 veces más rápida.
NVIDIA hace su propia prueba de rendimiento
Para demostrarlo, NVIDIA presentó las métricas de rendimiento de un único servidor DGX H100 equipado con ocho GPU H100 ejecutando el modelo Llama 2 70B. Un sistema DGX es capaz de completar una sola tarea de inferencia en sólo 1,7 segundos cuando se configura con un tamaño de un lote. Esto se traduce en que gestiona una petición cada vez. Esto es inferior a la comparativa de 2,5 segundos de la máquina con 8x GPU AMD MI300X. Esta configuración proporciona la respuesta más rápida para el procesamiento de modelos.
Para equilibrar el tiempo de respuesta y la eficiencia general, los servicios en la nube suelen emplear un tiempo de respuesta estándar para determinadas tareas. Tal y como se muestra en el gráfico, son de 2,0 segundos, 2,3 segundos y 2,5 segundos. Este enfoque les permite gestionar varias solicitudes de inferencia juntas en lotes más grandes, mejorando así el total de inferencias por segundo del servidor. Este método de medición del rendimiento, que incluye un tiempo de respuesta establecido, es también un estándar común en los puntos de referencia del sector como MLPerf.
Incluso pequeños compromisos en el tiempo de respuesta pueden aumentar significativamente el número de inferencias que un servidor puede gestionar simultáneamente. Con un tiempo de respuesta predeterminado de 2,5 segundos, un servidor DGX H100 puede realizar más de cinco inferencias Llama 2 70B cada segundo. Se trata de un aumento sustancial en comparación con el procesamiento de menos de una inferencia por segundo en una configuración por lotes. NVIDIA, como es lógico, no disponía de las cifras de la AMD Instinct MI300X a la hora de medir el rendimiento en esta configuración. Pero con los datos aportados por AMD en otras configuraciones, hablan de duplicar su rendimiento.