Modelos mentales: así es el secreto detrás de la próxima generación de Inteligencia Artificial de las Big Tech
Los gigantes de la Inteligencia Artificial siguen compitiendo por tener el LLM más potente del mercado, pero mientras tanto, una corriente más discreta y con cierto aire académico ya está mirando más allá. En lugar de entrenar modelos de IA que encadenan palabras con maestría, algunos cerebros punteros están apostando por enseñar a las máquinas a comprender el mundo tal y como lo hacemos los humanos: con los llamados modelos mentales.
Y es que entender el entorno, razonar sobre él y anticipar lo que puede pasar no es cosa de juntar frases bonitas y ya. Para llegar al siguiente nivel de IA, figuras como Fei-Fei Li o Yann LeCun están apostando por lo que llaman “modelos mundo” o “modelos mentales”, una tecnología que promete revolucionar lo que hasta ahora entendíamos como Inteligencia Artificial.
Los modelos mentales: la nueva frontera de la IA que las empresas ya están explorando
En lugar de limitarse a predecir la siguiente palabra en una frase, como hacen los grandes modelos lingüísticos actuales, los modelos mundo intentan construir representaciones internas del entorno, simulando la forma en la que pensamos los humanos. El profesor Jay Wright Forrester en el 71 explicaba que todas nuestras decisiones se basan en imágenes mentales del mundo que nos rodea.
No hay gobiernos, ciudades o empresas en nuestra cabeza, sino conceptos y relaciones que usamos para movernos por la vida. Fei-Fei Li, que ya dejó huella en la IA con ImageNet, está al frente de esta nueva ola con su empresa World Labs, fundada en 2024. La misión: construir IA que pase del plano (literalmente hablando) al 3D, dotada de habilidades espaciales comparables a las nuestras. Li lo explica así:
"Nuestro objetivo es elevar los modelos de IA del plano bidimensional de los píxeles a mundos tridimensionales completos, tanto virtuales como reales, dotándolos de una inteligencia espacial tan rica como la nuestra. Si te pido que cierres los ojos ahora mismo y dibujes o construyas un modelo en 3D del entorno que te rodea, no es tan fácil".
Zuckerberg y los suyos también trabajan en un concepto similar
En Meta, el enfoque no es muy distinto. LeCun y su equipo trabajan con vídeos, pero no para reproducir cada píxel, sino para abstraer las escenas y crear representaciones generales que permitan predecir lo que viene después, eliminando el ruido y quedándose con lo esencial. Así, la IA puede construir una especie de “sentido común computacional”.
"La idea básica es no hacer predicciones a nivel de píxeles. Se entrena al sistema para que ejecute una representación abstracta del vídeo, de modo que se puedan hacer predicciones en esa representación abstracta y, con suerte, esta representación eliminará todos los detalles que no se pueden predecir".
El objetivo final no es menor para sus modelos mentales de IA: crear sistemas que aprendan rápido, razonen, planifiquen, recuerden y comprendan el mundo real. Porque si la Inteligencia Artificial quiere dejar de ser un loro predictivo, va a necesitar algo más que palabras bien encadenadas. LeCun lo expresa así:
"Necesitamos sistemas de IA que puedan aprender nuevas tareas muy rápidamente. Necesitan comprender el mundo físico, no solo el texto y el lenguaje, sino el mundo real; tener cierto nivel de sentido común y capacidad de razonamiento y planificación, y tener memoria persistente: todo lo que se espera de una entidad inteligente".
Sin lugar a dudas, estamos ante un nuevo cambio de paradigma en el sector que nos llevará a otro nivel que ahora solamente está en las películas de ciencia ficción.