Los memes cobran vida gracias a Stable Video Diffusion, la IA que crea animaciones de simples imágenes
La inteligencia artificial se encuentra en más programas y aplicaciones, haciendo que se integre cada vez más en nuestro día a día. La IA generativa en concreto, es la que más interés ha generado y a la vez, la que más temor provoca. Esta es la inteligencia artificial entrenada para generar contenido y como ejemplos conocidos tenemos a Stable Diffusion o Midjourney para crear imágenes por IA. Ahora se ha recibido un nuevo modelo de IA llamado Stable Video Diffusion (SVD), el cual nos permite crear vídeos de las imágenes por IA.
Seguramente la mayoría de vosotros habrá utilizado una IA generativa para crear contenido como imágenes o arte en más de una ocasión. Se trata de herramientas gratuitas como es el caso de la IA de Bing, Dall-E, Stable Diffusion o Midjourney en su formato gratuito. Hay muchos otros ejemplos y modelos de IA para escoger, pero hemos mencionado los que se suelen conocer más en PC. Y es que, de todos estos, Stable Diffusion tiene una particularidad que lo diferencia de los demás.
Stable Video Diffusion nos permitirá crear vídeos cortos a partir de imágenes por IA
Stable Diffusion utiliza los recursos de tu PC, en concreto, tu tarjeta gráfica, para poder generar las imágenes por IA. Esto tiene sus pros y sus contras, ya que Midjourney y los demás hacen el trabajo de forma externa, pero dependes de su servicio. Con Stable Diffusion tú ejecutas todo de manera local, con tu PC, sin tener que conectarte ni adquirir un plan de suscripción. Esto hace que sea gratuito y a su vez, los resultados dependen enteramente de ti y de tu PC.
Stable Diffusion ha ido mejorando en el corto tiempo que lleva disponible hasta el punto donde han lanzado un nuevo modelo de IA capaz de hacer animaciones. Con el nombre de Stable Video Diffusion, tenemos una herramienta gratuita que permite convertir las imágenes a vídeo usando IA.
Una NVIDIA RTX 3060 ha tardado 30 minutos en generar 14 fotogramas animados
Antes de que te emociones y vayas a probar, se advierte que se necesitará una GPU NVIDIA para realizar este proceso. Eso es algo que ya vimos en las primeras versiones de Stable Diffusion, pero luego aparecieron formas de hacer que funcione en GPU de AMD de manera estable. Tras este inciso, volviendo a Stable Video Diffusion, tenemos la capacidad de convertir cualquier imagen estática en un videoclip corto. Esta emplea dos modelos de IA, uno que se encarga de convertir la imagen a vídeo de 14 fotogramas de longitud llamado SVD y el otro que genera 25 fotogramas denominado SVD-XT.
alright this is wild pic.twitter.com/6g7GgBr2E2
— gaut (@0xgaut) November 27, 2023
Estos se pueden configurar para que funcionen de 3 a 30 fotogramas por segundo y pueden producir un vídeo MP4 de entre 2 a 4 segundos de duración con resolución 576 x 1.024 píxeles. En las pruebas realizadas por Ars Technica podéis ver ejemplos de vídeos de dos segundos, aunque van a pocos FPS, ya que tardaría más tiempo. En cuanto al tiempo requerido, utilizando una NVIDIA RTX 3060 se han tardado 30 minutos en generar 14 fotogramas. Para entrenar este modelo de Stable Video Diffusion se emplearon aproximadamente 580 millones de clips de vídeos, 212 años de contenido.
Si quieres probar Stable Video Diffusion, el modelo de IA está disponible en su GitHub y luego en la web típica de Hugging Face encontraremos el resto de archivos. Como a muchos el framerate les parecerá demasiado bajo, siempre podéis usar algo como DAIN como IA par interpolar frames.