NVIDIA GH200: un 17% más de rendimiento que la H100 en IA, pero con 800W de consumo
NVIDIA ha sido siempre conocida por sus tarjetas gaming GTX y RTX, superando en ventas a su principal rival AMD. Pero ahora estamos ante una nueva época donde la IA ha sido el principal motivo de interés de la sociedad y la industria. Esto ha permitido que NVIDIA pudiese dominar el mercado con sus GPU dedicadas a IA. Entre estas, tenemos la reciente NVIDIA GH200, la cual vemos que ha conseguido superar a las H100 en IA y usar TensorRT-LLM para mejorar la inferencia.
La diferencia entre las gráficas AMD y NVIDIA está siendo cada vez mayor, pues los verdes han conseguido dominar el sector de la IA. Ya no hablamos de NVIDIA RTX o NVIDIA Quadro, sino más bien gráficas como la H100 y los denominados Superchips que la compañía crea para conseguir hacer con éxito altas cargas de trabajo. Hace un tiempo, NVIDIA lanzó la A100, para luego acabar con la H100 más adelante, siendo notablemente más rápida.
La NVIDIA GH200 debuta y TensorRT-LLM muestra un gran aumento de rendimiento
Ahora toca hablar de la NVIDIA GH200, que se ha convertido en el Superchip más rápido del mundo. Sobre esta ya hablamos en agosto, pues fue cuando se presentó y se mostraron sus especificaciones. Esta trae memoria 282 GB de memoria HBM3e, siendo un 50% más rápida que la HBM3 y alcanzando hasta 10 TB/s. Ahora conocemos más datos sobre esta y es que logra ser hasta un 17% más rápida que la H100. El problema es que hablamos de un consumo de hasta 800W contra los 700W de la H100.
Este increíble Superchip GH200 por desgracia aún no se ha lanzado dado que se espera que llegue en la segunda mitad de 2024. Sabemos que ha superado fácilmente a la H100 de manera individual en las pruebas de inferencia MLPerf. Aunque la reina absoluta han sido los sistemas HGX H100 de NVIDIA, dado que estos incluyen 8 gráficas. Sin embargo, NVIDIA tiene un as bajo la manga y este sería el uso de TensorRT-LLM en las GH200. Este se trata de un software de IA generativa que optimiza la inferencia y permite aumentar en gran medida el rendimiento.
Por el momento han mostrado solo la mejora en las H100 y aquí podemos ver que se consigue duplicar el rendimiento básicamente, pues pasa de 4X a 8X. Esto implica que TensorRT-LLM con la H100 es hasta 8 veces más rápido que GPT-J 6B. También se ha mostrado una mejora similar en la inferencia de Llama2.
Las NVIDIA Jetson Orin mejoran su rendimiento considerablemente
TensorRT-LLM se ha creado junto a empresas como Meta, AnyScale, Cohere, Mistral AI y otras líderes del sector de la IA. Algunas como MosaicML, reconocen que ha sido muy fácil la integración de este software y permite aumentar el rendimiento de manera eficaz. Ahora tenemos curiosidad en como cambiará cuando se emplee TensorRT-LLM con las NVIDIA GH200, por lo que esperamos que en algún momento del año que viene veamos las pruebas.
Por último, NVIDIA ha mostrado como su software permite mejorar en inferencia a las NVIDIA Jerson Orin. Aquí podemos ver que en MLPerf, usando una prueba de detección de objetos, la NVIDIA Jetson Orin NX logra subir un 84% y la AGX Orin es un 61% más rápida.