El habla humana ya no es solo de los humanos

Google DeepMind crea sofisticadas voces de personas inexistentes usando inteligencia artificial

23 sept 2016 - 09:53CEST

En breve, oiremos voces salir de nuestro tel��fono y no seremos capaces de distinguir si se trata de una persona, grabada o en directo, o de una m��quina. Sentiremos que respira, coge aire, entona en funci��n del mensaje, modula la voz para enfatizar y todo tipo de dejes e imperfecciones habituales en el habla humana. Mientras a algunos esta idea les produce escalofr��os, algunos de los mejores expertos en inteligencia artificial trabajan en pulir unas voces que ya son lo m��s humano que se ha escuchado nunca... surgido por entero de un ordenador.

WaveNet permitir�� asistentes en los m��viles mucho m��s personales, pero ya se ha demostrado capaz hasta de componer peque?as piezas de piano

"Los primeros modelos los probamos sin texto. Cuando tuvimos el primer audio supimos que el modelo era bueno: parece que sea ingl��s pero no era ingl��s ni nada. Pero o��as hablar a alguien que respira y eso me sorprendi�� much��simo", recuerda Oriol Vinyals, uno de estos especialistas de Google DeepMind que ha desarrollado este programa para crear voces humanas de la nada. Luego le dieron textos a la m��quina para que dijera cosas inteligibles y el resultado fue convincente. WaveNet, como se denomina el proyecto, permitir�� asistentes en los m��viles mucho m��s personales, pero ya se ha demostrado capaz hasta de componer peque?as piezas de piano.

El modelo aprovecha las capacidades de la inteligencia artificial basada en redes neuronales que est��n desarrollando en DeepMind, la filial londinense de Alphabet (Google) que est�� liderando las conquistas m��s vistosas en este campo. Del mismo modo que esas redes neuronales ve��an las jugadas ganadoras en el Go, ganando al campe��n en este complejo tablero oriental, ahora son capaces de dibujar ondas de audio que parezcan voces humanas.

La m��quina se alimenta de voces reales y aprende a dibujar una onda de audio de voz humana a partir de los ejemplos

Para conseguirlo, primero alimentan a la m��quina con horas y horas de audios y, a partir de ah��, WaveNet aprende a generar simulaciones de voces emulando la frecuencia de los sonidos, la fluidez de los fonemas y el ritmo de conversaci��n de las personas. En una onda de audio, desmenuzada al detalle, se encuentran todos los matices de una voz real: temblor, entonaci��n, silencios irregulares, ruidos de respiraci��n, etc. Son puntos en una l��nea, 16.000 puntos en un segundo de voz. "Con unas cuantas horas de voz, WaveNet tiene muchos puntos de entrenamiento", afirma Vinyals.

En otros sistemas de voz artificial se recurre a fragmentos de discurso troceados que se encadenan para formar palabras y frases: fonemas enganchados uno tras otro como los vagones de un tren de juguete. De ah�� que no sirvan para entonar o enfatizar en condiciones. Sin embargo, lo que hace WaveNet es simular la onda que crear��a un humano al hablar, despu��s de aprender c��mo se encadenan todos los puntos de una onda de audio. "Va eligiendo d��nde se coloca el siguiente punto de la onda, 16.000 veces por segundo, a lo largo de la se?al temporal de muy alta frecuencia, lo cual es bastante dif��cil, un hito en el campo de la generaci��n de voz", asegura Vinyals, formado en la Universidad Polit��cnica de Catalunya y ��nico espa?ol de la lista del MIT de 35 innovadores de menos de 35 a?os.

Un compositor artificial

Pensando en el futuro, Vinyals reconoce que WaveNet necesita mejorar en la rapidez de generar voz. Y a?ade: "Lo que est�� muy claro es que Google va a impulsar su asistente virtual, eso es obvio". Pero lo m��s fascinante de su trabajo, reconoce, es la capacidad de crear m��sica. Del mismo modo que aprende c��mo dir��a un humano una frase, WaveNet puede aprender c��mo suena una pieza de piano y simular una por su cuenta (escucha los ejemplos).

"Lo m��s bonito desde el punto de vista de investigaci��n pura ser��a trabajar en el campo de la creaci��n de m��sica, que aprendan de escuchar a Chopin o a Mozart y decirle: 'Dame otra sinfon��a que no sea ninguna de las que existen pero que sea de su estilo", asegura. "Para la voz est�� mucho m��s claro, el modelo tiene muchas m��s pistas de c��mo se genera un habla que parezca humana. Para generar una canci��n de tres minutos que tenga coherencia, que sea agradable, que transmita sentimientos... es una posibilidad mucho m��s lejana", reconoce.

Tu suscripci��n se est�� usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci��n?

A?adir usuario Continuar leyendo aqu��

Si contin��as leyendo en este dispositivo, no se podr�� leer en el otro.

?Por qu�� est��s viendo esto?

Flecha

Tu suscripci��n se est�� usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci��n a la modalidad Premium, as�� podr��s a?adir otro usuario. Cada uno acceder�� con su propia cuenta de email, lo que os permitir�� personalizar vuestra experiencia en EL PA?S.

?Tienes una suscripci��n de empresa? Accede aqu�� para contratar m��s cuentas.

En el caso de no saber qui��n est�� usando tu cuenta, te recomendamos cambiar tu contrase?a aqu��.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar�� en tu dispositivo y en el de la otra persona que est�� usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu�� los t��rminos y condiciones de la suscripci��n digital.

Sobre la firma

Javier Salas

Jefe de secci��n de Ciencia, Tecnolog��a y Salud y Bienestar. Cofundador de MATERIA, secci��n de ciencia de EL PA?S, ejerce como periodista desde 2006. Antes, trabaj�� en Informativos Telecinco y el diario P��blico. En 2021 recibi�� el Premio Ortega y Gasset.