Las GPU NVIDIA H100 y su memoria HBM3 provocaron cientos de fallos mientras entrenaban la IA de Meta
A la hora de entrenar modelos de IA, las gráficas de NVIDIA se han convertido en el componente de hardware más deseado con diferencia. La demanda de estas gráficas fue tan alta que en cuestión de poco tiempo, había que esperar semanas para poder recibir los pedidos. Esto generó enormes beneficios para NVIDIA, la cual llegó a convertirse en la empresa más valiosa del mundo hace poco. A pesar de que la compañía domina completamente el mercado con sus gráficas, ahora se han descubierto GPU NVIDIA H100 con memorias HBM3 defectuosas que provocaron muchos fallos en el entrenamiento de Llama 3.
Los modelos de inteligencia artificial como GPT-4 han requerido de meses de entrenamiento con muchas GPU para llegar a lo que son. Estamos hablando de una IA con 175.000 millones de parámetros, la más grande que vimos en el momento de su lanzamiento. Posterior a esta, OpenAI ha estado creando otros modelos como el reciente GPT-4o y 4o mini, una versión optimizada y de menor tamaño.
Meta entrenó el modelo IA Llama 3 405B y tuvo muchos fallos con las GPU H100
Mientras OpenAI captaba la atención de todos, el resto de marcas no han querido quedarse de brazos cruzados viendo como su rival les adelantaba. Algunas como Google han pasado a la acción creando su grupo de modelos de IA denominado Gemini y otras como Anthropic tienen a Claude. Mientras tanto, Meta no se rinde en su propósito de crear IA abiertas y de libre uso con Llama. Llama 3 es la última versión que hemos visto, en concreto el modelo 405B, que se considera el más completo hasta el momento.
Para poder entrenar el modelo de Llama 3 405B empleando un clúster de 16.384 GPU NVIDIA H100 de 80 GB. El entrenamiento duró 54 días, pero por desgracia acabó sufriendo 419 errores inesperados provocados por el hardware, lo que implica un fallo cada tres horas. La mitad de los casos fue debido a las GPU H100 y su memoria HBM3 integrada.
A pesar de los errores, el entrenamiento funcionó durante el 90% del tiempo
El hecho de que estas tarjetas gráficas sufran fallos no es algo habitual, pero hay que tener en cuenta que aquí hablamos de un superordenador con más de 15.000 GPU. La computación asíncrona de todas estas gráficas las hace más propensas a fallos y estos pueden impedir que el entrenamiento progrese o incluso podría ser necesario reiniciar el sistema. En el caso del entrenamiento de Llama 3, el equipo de Meta asegura que pudieron mantener el entrenamiento durante el 90% del tiempo.
Al igual que hubo 419 fallos inesperados, se produjeran 47 interrupciones planificadas, llegando a producirse 466 fallos en total. Las interrupciones planificadas se debían a mantenimientos automatizados y el resto de errores debido al hardware. De todo estos, el 30,1% se debieron a fallos de GPU con errores de NVLink mientras el 17,2% se debía a la memoria HBM3. Por otro lado, solo hubo dos errores por parte de la CPU en los 54 días de entrenamiento. Recordemos que Elon Musk anunció que había conseguido montar un clúster de 100.000 GPU H100, por lo que aquí nos podremos hacer una idea de la cantidad de fallos que podrán llegar a tener.