NVIDIA Fugatto: IA generativa que nos permite crear música, voces y sonidos a partir de texto y audio
La inteligencia artificial empezó su desarrollo hace décadas e incluso teníamos en los años 60 IA generativa mucho más básica que la actual, como ELIZA, un chatbot que podía dar respuestas y comunicarse con humanos. Aunque empezó hace muchos años, la inteligencia artificial no ha sido muy relevante hasta hace poco, gracias a todos los avances en cuanto a hardware, software y tecnologías que se han utilizado para poder crear modelos de IA cada vez más avanzados. Ahora es la propia NVIDIA la que presenta uno de estos nuevos modelos de IA generativa, el cual se denomina Fugatto y nos permite crear música, sonidos y voces usando prompts de texto y audio.
La inteligencia artificial dejó de ser de nicho cuando pudimos empezar a utilizarla por nuestra cuenta y comprobar por nuestra cuenta su utilidad. Así es como empezamos a crear imágenes por IA con Stable Diffusion o Midjourney hace unos años, posteriormente llegó ChatGPT y como siempre decimos, a partir de ahí el interés por la inteligencia artificial se disparó en todo el mundo. Tanto empresas como personas empezaron a sentir curiosidad por esta y ya es considerado algo normal utilizarla en el día a día. En el caso de las compañías, se realizan grandes inversiones para poder crear modelos de IA más complejos.
NVIDIA presenta Fugatto, su nuevo modelo de IA generativa que nos permite crear música a partir de texto y audio
Ya hemos visto IA generativa de imágenes, de vídeos, de texto y hasta de música como Google Instrument Playground. Esta nos permite hacer música empleando 100 instrumentos distintos y genera una pista de audio de 20 segundos. Los resultados no fueron demasiado buenos, pues el sonido se sentía totalmente artificial y no podíamos tomárnoslo como algo muy serio. Ahora bien, también tenía su utilidad, pues por ejemplo para música ambiente no estaba del todo mal. Ahora llega competencia por parte de NVIDIA y podemos ver en el vídeo de lo que es capaz de hacer Fugatto (Foundational Generative Audio Transformer Opus 1).
Se puede utilizar un prompt de texto para describir lo que queremos que nos muestre en el audio resultante. También se muestran ejemplos de como podemos usar el texto y un archivo de música para por ejemplo, separar la voz de los instrumentos. Otro ejemplo de lo que es posible es subir un archivo que incluya voces y podemos cambiar el tono o añadir emociones.
Podemos usar la IA para crear música desde cero, cambiar nuestra música o añadir nuevos instrumentos y variaciones
Los resultados que consigue con los prompts de texto a audios no parecen ser muy satisfactorios, al menos en la prueba realizada. Con NVIDIA Fugatto nos pasa como con Google y notamos que sigue haciendo falta más trabajo así que no vemos que sea posible crear música a nivel de profesionales que hagan uso de DAW (como FL Studio o Ableton Live). Aun así, pensamos que para un uso de música ambiental y sobre todo para experimentar con sonidos y añadir un toque adicional a las canciones con IA podría ser interesante.
Avanzando en el vídeo vemos precisamente esto, una demostración de que es posible añadir instrumentos y sonidos a una canción que ya hayamos creado previamente. Es ahí donde vemos el punto fuerte de NVIDIA Fugatto, en la experimentación y usarla como herramienta para mejorar o cambiar ciertos aspectos de la música o sonidos, como el estilo de esta. Notamos que la calidad de audio que ofrece podría mejorar, pero hay que tener en cuenta que acaba de anunciarse y al ritmo al que avanza la IA no nos extrañaría que dentro de poco se escuche mucho mejor.