NVIDIA logra 3 veces más rendimiento en IA con sus GPU RTX gracias a su último driver
El driver que se lanzó ayer por parte de los verdes no tenía demasiada chicha realmente, al menos, mirando sus release note. Aparte de tres correcciones de errores puntuales, dicho driver 555.85 WHQL no era gran cosa. Pero, por otro lado, y fuera de dicho documento, NVIDIA deslizó lo realmente importante del mismo: un aumento de rendimiento de hasta 3 veces en IA para sus RTX con este nuevo driver. ¿En qué apartados exactamente mejora?
Desde Microsoft Build, NVIDIA informa sobre nuevas integraciones y optimizaciones de rendimiento para la IA y en Windows dentro de sus GeForce RTX, así como estaciones de trabajo con RTX. Lo curioso es que en dicho driver no encontraremos referencia alguna, pero sí en su blog, algo oculto la verdad, y sorprende, porque las mejoras son realmente interesantes para todos los que estén trabajando con IA en estos momentos.
NVIDIA logra aumentar el rendimiento de sus GPU RTX en hasta 3 veces para algunos LLM de IA con su nuevo driver
Son tres en concreto muy conocidos por todos: ONNX Runtime (ORT), DirectML y WebNN. Todo giró en la actualización de la extensión de IA generativa para ORT que lanzó Microsoft, la cual es una biblioteca multiplataforma para inferencia.
Al ser multiplataforma acepta DirectML y hardware variado, por lo que unir ORT y esta API es un camino más sencillo para todo desarrollador de IA dentro de Windows, y seguramente estemos hablando del inicio de un sendero que, con ayuda de NVIDIA, sea clave en el futuro más próximo. Tanto es así y sabiendo de antemano el empuje que tienen los verdes en cuanto a software para IA (números 1 del mundo y por mucho) este nuevo driver logra unas optimizaciones basadas en dicha extensión de IA para ORT que engloba no solamente estos Game Ready, sino que NVIDIA afirma que está también implementada en Studio y RTX Enterprise.
Por lo tanto, todas las GPU se benefician de estas optimizaciones, y por ello, NVIDIA logra 3 veces más rendimiento en IA con cualquier RTX si comparamos estos 555.85 WHQL frente a los drivers anteriores.
Phi-3, Llama 3, Gemma y Mistral muestran las mejoras
Son tres técnicas de optimización muy usadas, y bajo una RTX 4090 los verdes han mostrado el cambio en FP16 e INT4 desde los drivers R550 hasta estos R555. Como viene siendo habitual, la mayor mejora está en enteros, ya que ONNX y DirectML es lo que más premian. Aunque NVIDIA afirma que se logra hasta 3 veces más rendimiento, si miramos bien la comparativa, realmente no vemos ningún valor que llegue siquiera a duplicarse, pero puede que se refieran a un rendimiento ganado gracias a las nuevas capacidades que se incluyen en este nuevo driver y que están por explotar:
- Soporte para el metacomando DQ-GEMM para manejar la cuantificación de solo peso INT4 para LLM.
- Nuevos métodos de normalización RMSNorm para los modelos Llama 2, Llama 3, Mistral y Phi-3.
- Mecanismos de atención grupal, multiconsulta y ventana corrediza de atención para apoyo a Mistral.
- Actualizaciones de KV in situ para mejorar el rendimiento de la atención.
- Soporte para GEMM de tensores no múltiplos de 8 para mejorar el rendimiento de la fase de contexto.
Por último, en su blog, NVIDIA cita a WebNN con DirectML y ORT Web, biblioteca de Javascript para LLM en navegadores. Con ello, aseguran que la aceleración de modelos como Stable Diffusion, SD Turbo y Whisper es de al menos 4 veces más rápida frente a WebGPU, estando ya disponible en estos drivers.
Sea como fuere, el aumento de rendimiento es considerable si tenemos en cuenta que "solo" son unos drivers, así que, si en algún punto se puede lograr hasta 3 veces o 4 veces más rendimiento, es sin duda un cambio dramático para las GPU RTX que hay que considerar, y que pone tierra de por medio con sus máximos rivales en este campo.