Microsoft VALL-E: la IA que con 3 segundos de audio simula una voz humana

Hace poco estuvimos hablando sobre el plan que tiene Microsoft para integrar las funciones de la IA ChatGPT en Word, PowerPoint y Outlook. Está claro que el enfoque de la compañía es aprovechar el uso de la inteligencia artificial para automatizar ciertas tareas en dichos programas. Lo que no esperábamos es que Microsoft anunciase VALL-E, su nueva IA que es capaz de simular la voz tras escuchar una muestra de audio de solo tres segundos.

A día de hoy, tenemos entre nosotros un buen número de IA que han demostrado su utilidad y variedad. Por ejemplo, tenemos IA que son capaces de escribir textos sobre cualquier cosa que les preguntes. También hay chatbots con los que podemos conversar e incluso hubo casos donde se creía que eran personas reales. Tampoco podemos olvidarnos de las populares IA que crean imágenes a través de texto, como DALL-E, Midjourney o Stable Diffusion.

Microsoft presenta VALL-E, una IA que simula la voz y emociones

IA Voz Emociones

Este pasado jueves, los investigadores de Microsoft presentaron un nuevo modelo IA enfocado a convertir fragmentos de texto a voz. Así de primeras no parece muy novedoso, pues desde años ya existen las típicas voces robóticas de Windows para leer textos. Pero a diferencia de estos TTS, la nueva IA llamada VALL-E simulará de forma realista la voz de una persona. Además, no solo se quedará con el tono de una voz concreta, sino que una vez aprendida, representará las emociones que dependerán del texto y palabras empleadas.

Microsoft anuncia que la nueva IA VALL-E se podrá utilizar en aplicaciones de conversión de texto a voz de alta calidad, edición de voz y creación de contenido al combinarla con otras IA como GPT-3. Realmente si el resultado es bueno, podemos imaginarnos un sinfín de usos, donde podría ser empleada como doblaje de juegos que solo tienen texto para audiolibros o incluso para estudiar, al simular nuestra propia voz.

La IA se ha entrenado con 60.000 horas y más de 7.000 voces

VALL-E funcionamiento

Los investigadores de Microsoft aclaran que la IA VALL-E es un "modelo de lenguaje de códec neural", el cual se basa en una tecnología denominada EnCodec, anunciada por Meta en 2022. A diferencia de otros métodos que manipulan las formas de onda para simular la voz, VALL-E genera códigos de códec de audio a partir de texto e instrucciones acústicas. Tras analizar el tono de voz de una persona, descompone su información en tokens y usa los datos de entrenamiento para simular la voz de una persona en tan solo 3 segundos. Tras esto, intentará reproducir este tono de voz en cualquier frase o texto que le indiquemos.

Para su entrenamiento, Microsoft empleó una biblioteca de audio de Meta, llamada LibriLight. Esta contiene 60.000 horas de habla inglesa por parte de más de 7.000 locutores. Eso sí, no todo es perfecto, pues para simular tu voz en solo 3 segundos, esta debe ser parecida a las de los datos de entrenamiento. Si tenemos curiosidad sobre el resultado, hay docenas de demostraciones sobre como se escucha esta IA. Tenemos así la muestra "Speaker Prompt" que hace referencia al audio de 3 segundos y el "Ground Truth" donde pronuncia una frase concreta. Por último, tenemos "VALL-E" como la muestra final de como es el resultado al utilizar esta IA de Microsoft.