Google DeepMind desarrolla un nuevo método de entrenamiento de IA 13 veces más rápido y 10 veces más eficiente

Cuando la inteligencia artificial generativa llegó a nuestras vidas, nos quedamos sorprendidos al ver lo que era capaz de ofrecer. Parecía una tecnología que podía cambiar por completo el concepto que teníamos de las cosas y sin duda aumentaría la productividad y permitiría automatizar tareas. Google lleva años realizando avances en IA y el nuevo JEST de DeepMind promete ofrecer un entrenamiento hasta 13 veces más rápido y mucho más eficiente.

La IA generativa está en su momento de mayor auge y aunque lleve poco tiempo con nosotros, OpenAI con ChatGPT crearon ese enorme interés que no se ha reducido hasta ahora. La carrera por superar a esta compañía y ofrecer modelos de IA más avanzados y precisos es una realidad y aunque hemos visto la presentación de varios modelos, en la práctica seguimos sin ver demasiados cambios. Compañías como Google o Anthropic mostraron el potencial de Gemini y Claude, respectivamente y probablemente veamos estas y ChatGPT disponibles en iOS 18 gracias a los acuerdos de Apple con ellas.

Google DeepMind desarrolla un nuevo método de entrenamiento de IA mucho más rápido y eficiente

Google DeepMind IA ChatGPT

El entrenamiento de modelos de IA más complejos se ha vuelto una práctica muy común y de ahí que muchas empresas inviertan millones de dólares en adquirir el hardware necesario para lograr esto. Aquí es donde entran en juego las GPU de NVIDIA para IA, las cuales han estado siendo tan populares que la demanda superó a la oferta a pesar de sus altísimos precios y de que AMD tenga una MI300X notablemente más barata. Para poder entrenar un modelo de IA se pueden llegar a emplear miles de estas tarjetas gráficas y ya puedes imaginar el coste y tiempo requeridos.

Google DeepMind ha estado involucrada en una nueva investigación donde han descubierto un nuevo método JEST (selección conjunta de ejemplos), que permite acelerar el proceso de entrenamiento de una IA. Las mejoras son increíbles, ya que se habla de acelerar en 13 veces la velocidad de entrenamiento y en 10 veces la eficiencia. Mientras que los métodos tradicionales de entrenamiento se basan en usar datos individuales para entender y aprender, JEST emplea grupos de datos.

Entrenar modelos de IA como el último GPT-4o de OpenAI ha costado más de 100 millones de dólares

GPT-4o

El funcionamiento del método JEST empieza creando primero un modelo de IA más pequeño, este se encargará de calificar los datos a partir de fuentes de alta calidad y así poder crear grupos a un mismo nivel. Este primer grupo es comparado con un conjunto mayor de datos, pero que usa fuentes de menor calidad o menos fiables. En esta comparativa se determinan los mejores datos y se realiza una calificación, donde los lotes más adecuados van dirigidos al entrenamiento.

Por último, se entrena un modelo de mayor tamaño a partir de los datos del modelo pequeño previamente entrenado. Esto permite ahorrar muchísimo tiempo y como vemos, se trata de una técnica mucho más eficiente. Según los investigadores de Google DeepMind, para que este método de entrenamiento funcione, es fundamental que puedan conducir el proceso de selección de datos hacia la asignación de datos más pequeños y precisos.

Esta combinación es lo que le permite diferenciarse de otros métodos de entrenamiento y sumándolo a la capacidad de trabajar con grupos de datos en lugar de valores individuales, le da una clara ventaja. Ahora falta ver si la industria decide adoptar este enfoque JEST que Google ha mostrado, pues serviría para reducir los costes en gran medida. Se estima que un modelo de inteligencia como el último GPT-4o le costó a OpenAI 100 millones de dólares y esto es solo el inicio.