NVIDIA aumenta en un 30% el rendimiento de la IA en modelos lingüísticos de gran tamaño
NVIDIA ha anunciado una actualización del framework NeMo Megatron que mejora la velocidad de entrenamiento de la IA. Esta ve así su rendimiento aumentar en un 30% para los modelos lingüísticos de gran tamaño o LLM. En concreto, la prueba fue realizada entrenando un modelo GPT-3 con hasta 1 billón de parámetros.
A medida que el tamaño y la complejidad de los LLM va creciendo, se requieren de avances para que el tiempo invertido en entrenarlos se reduzca. NVIDIA ha logrado esto mediante la última actualización de NeMo Megatron, la cual incorpora dos técnicas pioneras y una herramienta para optimizar y escalar el entrenamiento de los LLM en cualquier número de GPUs.
NVIDIA reduce el entrenamiento por IA de los LLM en un 30%
Los LLM o modelos lingüísticos de gran tamaño requieren entrenarse durante un largo tiempo debido a que incluyen hasta billones de parámetros. Sin embargo, gracias a ellos tenemos chatbots, resúmenes de documentos y creación de textos mediante IA, entre otros. Dentro de este sector, grandes empresas innovan con herramientas como DeepSpace de Microsoft, Colossal-AI o Hugging Face BigScience. Todas estas tienen en común que están impulsadas por la plataforma IA de NVIDIA, que incluye Megatron-LM y Apex, entre otras.
De hecho, BLOOM, el mayor modelo lingüístico multilingüe del mundo, de acceso libre y con 176.000 millones de palabras, se ha entrenado recientemente con la IA de NVIDIA. Esto ha permitido generar texto en 46 idiomas y 13 lenguajes de programación. Con tantos clientes usando la plataforma de Inteligencia Artificial de NVIDIA, estamos seguros de que agradecerán la nueva actualización. Y es que, NeMo Megatron ofrecerá un 30% más de velocidad en el entrenamiento de modelos GPT-3 que tengan tamaños entre 22.000 millones de parámetros a 1 billón de parámetros.
Esto da como resultado la posibilidad de entrenar modelos con 175.000 millones de parámetros usando 1.024 GPUs NVIDIA A100 durante 24 días. Esto es una reducción de 10 días, es decir, 250.000 horas de cálculo, con la nueva actualización de la plataforma IA de NVIDIA. Además, es posible ejecutar estos entrenamientos con NVIDIA DGX SuperPOD y NVIDIA DGX Foundry, además de la nube de Microsoft Azure.
Así son las dos nuevas técnicas para acelerar el entrenamiento IA de LLM
Las dos técnicas que incluye la actualización de IA de NVIDIA son el paralelismo de secuencias (SP) y el recálculo de activación selectiva (SAR). El SP ampliará el paralelismo del modelo al nivel de del paralelismo de tensor, tras observar las regiones de una capa sin paralelizar son independientes a lo largo de la dimensión de la secuencia. Con esto, se dividen dichas capas, distribuyendo el cálculo y la memoria de activación de estas regiones. Así, es posible guardar más activaciones sin requerir un nuevo cálculo de las mismas.
Por otro lado, con el SAR se volverán a recalcular solo las partes de cada capa que ocupan mucha memoria, pero que no requieren muchos recursos para recalcular. Así, se mejora el rendimiento en situaciones donde hay una limitación de memoria, ya que se recalcularán solo aquellas activaciones que consuman una gran cantidad de esta.
Gracias a las técnicas SP y SAR, NVIDIA logra reducir en hasta 5x la memoria requerida
Gracias a la combinación de las dos técnicas anteriormente explicadas, NVIDIA consigue hacer que el consumo de memoria en IA sea hasta 5 veces más bajo. Se observa también una mejora en la sobrecarga de cálculo, que era un hecho bastante común durante el entrenamiento de modelos LLM antes de estas dos técnicas nuevas. Así, tenemos una reducción de la sobrecarga de cálculo muy notoria, pasando de 36% al 2% tras la implementación de SP y SAR.
Además, no nos podemos olvidar de mencionar la nueva herramienta que incluye la actualización de la plataforma IA de NVIDIA. Y es que, esta incluye una nueva herramienta de hiperparámetros que encuentra automáticamente las configuraciones óptimas de entrenamiento e inferencia. Esto significa que nos ahorra el tiempo de búsqueda de configuraciones eficientes de un modelo.
Las mejoras de NVIDIA incrementan los TFLOPs de las GPU en IA
Básicamente, todo esto lo que hace es mejorar el rendimiento y eficiencia de las tarjetas gráficas a la hora de llevar entrenamientos de LLM con billones de parámetros. Así, vemos los TFLOPs de las tarjetas gráficas incrementarse en gran medida en todos los casos, subiendo en ocasiones en hasta un 30% como se prometió anteriormente. Además, utilizando la herramienta de hiperparámetros de NVIDIA para IA, se logra obtener una configuración de entrenamiento óptima para un modelo GPT-3 175B en menos de 24 horas.