Intel presenta el LDM3D: modelo de IA generativa para crear contenido visual en 3D
Intel Labs anunció en colaboración con Blockade Labs, su modelo de difusión Latent Diffusion Model for 3D (LDM3D). La compañía indica que estamos ante un novedoso modelo de difusión, el cual se aprovecha de la IA generativa para crear contenidos visuales en 3D. Intel Labs indica que LDM3D es el primer modelo del sector que genera "un mapa de profundidad mediante el proceso de difusión para crear imágenes 3D con vistas de 360º que resultan vívidas e inmersivas". La compañía indica que su modelo llega para "revolucionar la creación de contenidos", las aplicaciones metaversales y las experiencias digitales. Desde el entretenimiento y los videojuegos hasta la arquitectura y el diseño.
"La IA generativa pretende aumentar y mejorar la creatividad humana y ahorrar tiempo. Sin embargo, la mayoría de los modelos actuales se limitan a generar imágenes en 2D y muy pocos pueden generar imágenes en 3D a partir de mensajes de texto". Indicó Vasudev Lal, científico investigador de IA y Machine Learning en Intel Labs.
"A diferencia de los modelos existentes de difusión latente estable, LDM3D permite a los usuarios generar una imagen y un mapa de profundidad a partir de un texto determinado utilizando casi el mismo número de parámetros. Proporciona una profundidad relativa más precisa para cada píxel de una imagen en comparación con los métodos estándar de posprocesamiento para la estimación de la profundidad y ahorra a los desarrolladores un tiempo considerable en el desarrollo de escenas".
Esto es lo que es capaz de hacer el modelo LDM3D de Intel & Blockade Labs
Intel Labs indicó que LDM3D se entrenó con un conjunto de datos construido con 400 millones de pares de imágenes y texto en inglés. Este responde al nombre de LAION-400M y se realizaron 10.000 muestras su base de datos. El equipo utilizó el modelo de estimación de gran profundidad Dense Prediction Transformer (DPT) para anotar el corpus de entrenamiento. El modelo DPT-large proporciona una profundidad relativa muy precisa para cada píxel de una imagen.
Para el entrenamiento, se utilizó un superordenador Intel AI. Evidentemente, este hace uso de unos procesadores Intel Xeon y aceleradores de IA Intel Habana Gaudi. Estos combinan la imagen RGB generada y el mapa de profundidad para generar vistas de 360º logrando así experiencias inmersivas.
"Para demostrar el potencial de LDM3D, los investigadores de Intel y Blockade desarrollaron DepthFusion. Esta se trata de una aplicación que aprovecha las fotos RGB 2D estándar y los mapas de profundidad para crear experiencias inmersivas e interactivas con vistas de 360 grados.
DepthFusion utiliza TouchDesigner, un lenguaje de programación visual basado en nodos para contenidos multimedia interactivos en tiempo real. Este convierte las indicaciones de texto en experiencias digitales interactivas e inmersivas. El modelo LDM3D es un único modelo para crear tanto una imagen RGB como su mapa de profundidad, lo que supone un ahorro de memoria y una mejora de la latencia.
Próximos pasos en la tecnología
La introducción de LDM3D y DepthFusion allana el camino para nuevos avances en la IA generativa multivista y la visión por ordenador. Intel seguirá explorando el uso de la IA generativa para aumentar las capacidades humanas y construir un sólido ecosistema de investigación y desarrollo de IA de código abierto que democratice el acceso a esta tecnología.
Siguiendo con el firme apoyo de Intel a un ecosistema abierto en IA, LDM3D presenta un código abierto a través de HuggingFace. Esto permitirá a los investigadores y profesionales de la IA mejorar aún más este sistema y perfeccionarlo para aplicaciones personalizadas.