Neuralangelo, así es la IA de NVIDIA para transformar tus vídeos en objetos 3D
La visión por computador es una de las disciplinas relacionadas con la inteligencia artificial más interesantes. Es justo lo contrario de generar gráficos, ya que se basa en que el sistema aprenda a ver y su evolución en los últimos años ha sido cuanto menos impresionante. Desde detectar gatitos a tener la capacidad a través de observación a crear composiciones artísticas. Pues bien, NVIDIA acaba de presentar Neuralangelo, un nuevo modelo de IA que puede sacar modelados 3D de vídeos tradicionales,
Imaginaos que queréis tener una versión en tres dimensiones perfectamente modelada de un edificio que aparece en una película antigua, pero ya no existe y queréis tener una maqueta del mismo. Pues con esta tecnología se puede hacer sin problemas. Y no es la única utilidad, es ideal para generar gemelos virtuales de ciudades e incluso tiene una enorme utilidad en videojuegos a futuro de cara a saber la localización de los objetos en cada escena para mejorar su iluminación.
Neuralangelo, la IA de NVIDIA para hacer 3D lo que es 2D
No es la primera vez que se gesta una tecnología que sirva para extraer modelados en 3D a partir de videos, pero NVIDIA presume que Neuralangelo es el sistema de este tipo más avanzado hasta el momento por el hecho de que obtiene mayor nivel de detalle. El motivo por el cual esto es más eficiente hacerlo con un vídeo del lugar en vez de una foto es simple, son muchas más muestras de información y esto le permite hacer la conversión con mayor precisión.
Y sí, lo pensamos bien, se trata de un proceso cuya utilidad es justo la inversa a cuando se generen los gráficos en 3D a tiempo real. En vez de ser una imagen 2D, el punto final y una serie de modelados en 3D, el punto de partida, pues las tornas se cambian. Aunque en este caso el orden de factores sí que altera el producto final, dado que el algoritmo no funciona de la inversa que generar una imagen en 3D, sino que usa otras técnicas distintas.
¿Cómo funciona?
Os vamos a dar una explicación sencilla de como funcionan, en general, este tipo de algoritmos. La tecnología de Neuralangelo utiliza, por un lado, la visión por computador y por el otro los algoritmos generativos. Por lo que no deja de ser una aplicación más del llamado Deep Learning y una forma de NVIDIA para buscarle una utilidad adicional a sus GPU y la apuesta por la IA que ha hecho la compañía.
- En primer lugar, tiene la capacidad de separar cada uno de los objetos de cada imagen e identificarlos, así como calcular a qué distancia se encuentran respecto a la cámara.
- En segundo lugar, gracias a poder tomar de referencia la información desde diferentes fotogramas, puede obtener una información más precisa a la hora a la hora de reconstruir la escena o el modelado.
- A partir de las dos premisas, Neuralangelo realiza una reconstrucción. Es decir, tenemos un caso en que primero la IA observa y luego reconstruye. Es decir, no es diferente a cuando Stable Diffusion o MidJourney generan una imagen en 2D a partir de la observación. La diferencia es que aquí hablamos de generar un modelado en 3D definido por vértices en un espacio.
- Ya para terminar, y dado que hablamos de generar un objeto que se parezca lo máximo posible al objeto real, existe un método de supervisión al final del proceso. El cual descarta si el resultado es erróneo y envía a la IA a realizar de nuevo todo el proceso.
La diferencia del algoritmo de NVIDIA es la forma con la que consigue un mayor detalle, ya que está pensado para capturar detalles al tener soporte para estructuras con geometría muy densa. Es decir, haciendo uso de polígonos de muy pequeño tamaño para la reconstrucción.