GameNGen: IA que consigue simular el DOOM en tiempo real sin un motor gráfico

Ver imágenes o vídeos creados por una IA es ya el pan de cada día y nada nos sorprende, pero... ¿Si una IA fuera capaz de crear un juego en tiempo real? ya existe y se llama GameNGen. Y para redondearlo todo, esta IA genera de la nada los frames necesarios para crear un juego de DOOM sin necesidad de utilizar un motor gráfico. Es decir, que esta IA está generando cada frame que ves en pantalla en tiempo real.

A modo de resumen, los ingenieros de Google la han creado entrenando un modelo de difusión generativa. En concreto, un modelo de difusión pequeño como Stable Diffusion en su versión 1,4v. El resultado del entrenamiento recibe el nombre de GamenGen, y ha conseguido crear una simulación completa del juego DOOM por medio de un modelo neuronal. Se podría decir que esta IA es un propio motor de juegos en sí. Salvo que cobra vida por medio de un modelo neuronal que permite la interacción en tiempo real con un entorno complejo a lo largo de largas trayectorias con alta calidad.

La primera prueba de GameNGen con DOOM ha sido un éxito

DOOM es un juego icónico en la industria al poderse jugar incluso en un test de embarazo digital. Es por ello que DOOM se ha simulado al completo con GameNGen. A nivel de rendimiento, con una única TPU, el juego funcionaba a 20 frames por segundo (20 FPS). La predicción externa de fotogramas alcanza una PSNR (Proporción Máxima de Señal a Ruido) de 29,4. Esto es comparable a la compresión JPEG. Es más, se indica que la IA podrá simular otros juegos clásicos por encima de los 20 FPS.

Los evaluadores humanos sólo son ligeramente mejores que el azar a la hora de distinguir clips cortos del juego de clips de la simulación. GameNGen se entrena en dos fases: (1) un agente RL aprende a jugar al juego y se graban las sesiones de entrenamiento, y (2) se entrena un modelo diffusion para producir el siguiente fotograma, condicionado por la secuencia de fotogramas y acciones anteriores. Los aumentos condicionados permiten una generación autorregresiva estable en trayectorias largas.

¿Cómo han conseguido esto?

GameNGen Agente de IA y modelo de entrenamiento generativo

Para recrear el juego DOOM en tiempo real, sin usar un motor gráfico tradicional, primero se creó un agente de IA. Este agente, especializado en aprendizaje por refuerzo, se utilizó para jugar automáticamente al juego original de DOOM. Como este agente genera datos de sus partidas, sus acciones y observaciones fueron utilizadas para entrenar un modelo generativo basado en diffusion.

Este modelo, una versión adaptada de Stable Diffusion, se entrenó para generar las imágenes del juego frame por frame. Durante el entrenamiento, se añadía ruido a las imágenes previas para ayudar al modelo a corregir errores y mantener la consistencia visual a lo largo del tiempo. Sin embargo, la compresión de imágenes del modelo inicial afectaba la calidad de detalles importantes, como el HUD del juego. Para solucionar esto, se ajustó el decodificador del modelo, mejorando la calidad de las imágenes sin perder la ventaja de usar un modelo preentrenado. El resultado de todo ello es GameNGen.

En conjunto, esta IA logró generar una versión de DOOM visualmente estable y detallada, sin necesidad de un motor gráfico convencional, al combinar técnicas avanzadas de generación y ajuste de imágenes. Estos son los primeros pasos de una IA creando un juego en tiempo real. Pero NVIDIA ya predijo que un futuro DLSS 10 podría interactuar con el motor gráfico de los juegos. Hasta el punto de que la IA sería capaz de renderizar todas las imágenes de un juego. Ese futuro comienza a tomar forma con GameNGen, y parece que llegará mucho antes de que se lance el DLSS 10.