El algoritmo Medusa de NVIDIA permite multiplicar por 1,93x el rendimiento de sus GPU H200 con la IA Llama 3.1

Para poder entrenar modelos de IA que hacen uso de millones de parámetros se requiere usar hardware como las GPU de NVIDIA destinadas a inferencia e inteligencia artificial. Estas han sido consideradas las mejoras a la hora de entrenar la IA y de igual forma han conseguido agotarse y se requiere esperar mucho tiempo para poder recibir nuevos lotes de gráficas. Mientras NVIDIA va preparándose para lanzar las nuevas GPU Blackwell para IA, tenemos una gran mejora percibida en las GPU HGX H200 Hopper, las cuales hacen uso de un algoritmo exclusivo de NVIDIA llamado Medusa para lograr un mejor rendimiento en la Llama 3.1 de Meta.

Cuando la inteligencia artificial generativa empezó a popularizarse es cuando nos dimos cuenta de que no había vuelta atrás. Al principio hubo muchas críticas sobre el entrenamiento de estas IA utilizando una gran cantidad de contenido creado por humanos, especialmente arte e imágenes, pues esta IA generativa fue la más popular al principio. Luego es cuando empezamos a ver otros tipos de IA capaces de generar contenido más complejo como vídeos o música.

NVIDIA prueba su algoritmo de descodificación Medusa destinado a mejorar el rendimiento de sus GPU en IA

NVIDIA-Blackwell-HGX-GPU-racks-GBH200

A pesar de la controversia en torno a la inteligencia artificial, el sector sigue adelante y hay un gran interés en el desarrollo. Las grandes empresas se encuentran creando modelos de IA cada vez más complejos y al igual que esto avanza, también lo hace el hardware. Aquí es donde toca hablar de los progresos dados por AMD como la MI300X para IA y sobre todo, por NVIDIA, la cual domina totalmente.

Esta ha estado lanzando GPU cada vez más potente, viendo como pasábamos de las A100 a las H100 y las próximas serán las B100 y B200 en llegar con arquitectura Blackwell. No solo eso, sino que NVIDIA crea sistemas con múltiples GPU mucho más potentes y plataformas de supercomputación de IA como las HGX H200. Son precisamente estas las que ahora han conseguido un mejor rendimiento gracias a Medusa, un nuevo algoritmo de descodificación que es exclusivo de NVIDIA.

La mejora es de hasta un 93% en el caso de Llama 3.1 405B

Rendimiento medusa

NVIDIA asegura que combinando este algoritmo junto a técnicas de paralelismo tensorial en tándem, es posible reducir la latencia a la hora de generar tokens. Se han realizado pruebas comparativas del servidor NVIDIA HGX H200 con 8 GPU H200 y 4 NVLink Switch junto a 900 GB/s de ancho de banda empleando el algoritmo Medusa en el modelo Llama 3.1. Por si no te suena, Llama es la familia de modelos de IA de Meta y en abril de este año presentaron Llama 3 con optimizaciones para Intel y NVIDIA.

Si nos centramos ahora en ver la comparativa usando este algoritmo, podremos comprobar la gran ventaja que ofrece, consiguiendo 268 tokens/segundo/usuario con Llama 3.1 70B y 108 tokens/segundo/usuario con el modelo 405B. Esto implica una mejora del 45% en el primer caso y de un 93% en el segundo modelo, por lo que el nuevo algoritmo es muy útil. Medusa se encarga de usar el modelo original como modelo borrador que intenta predecir múltiples tokens posteriores, donde cada "cabeza de Medusa" genera una distribución de tokens más allá de la anterior.