��Me he escuchado a m�� misma y hay frases que cuelan much��simo��. As�� llegan las voces artificiales al mundo de la locuci��n

Las fotos, los v��deos y los textos hechos con robots logran ya calidades humanas. La industria dedicada al audio tambi��n avanza por ese camino

Dos mujeres graban en un estudio de podcasts. La aparici��n de voces sint��ticas ser�� cada vez m��s normal dentro del sector.Zero Creatives (Getty Images/Image Source)

Jordi P��rez Colom��

21 jul 2022 - 05:20CEST

La actriz y locutora Begonya Ferrer dej�� escuchar a unos amigos unos mensajes de audio que hab��a recibido de una empresa de locuci��n. Era su voz, pero en realidad no era ella: ��Me escuch�� a m�� misma y hay muchas frases que cuelan much��simo��, dice. ��Se lo ense?�� a unos amigos y me dec��an lo mismo��. Ferrer hab��a escuchado montones de veces su voz grabada. Pero era la primera vez que se escuchaba ��sintetizada��. En los siguientes audios puede verse la escasa diferencia para el o��do no entrenado.

Como en otros campos de la intelig...

Suscr��bete para seguir leyendo

Lee sin l��mites

Seguir leyendo Seguir leyendo

Ya soy suscriptor

Como en otros campos de la inteligencia artificial, hay docenas de empresas que trabajan en mejorar la reproducci��n artificial de la voz humana. Sus avances son notables, aunque no perfectos a��n. La diferencia entre el ingl��s y el resto de lenguas es tambi��n destacable. Ya se usa para voces que no requieran tonos, acentos o emociones sofisticadas, como contestadores autom��ticos o v��deos y juegos de internet, pero todo llegar��. ��Tienen que acabar de perfilar algunos sonidos y entonaciones, o comas. Pero ya da para pensar mucho si es pan para hoy y hambre para ma?ana��, dice Ferrer.

La empresa que la contrat�� para sintetizar su voz es Voces en la Red. ��Hasta 2018, la voz sint��tica era mala. Ahora ha ido evolucionando, sobre todo con Amazon, Microsoft y Google y entre 2020 y 202 ha dado un salto. Sin embargo, a��n queda por hacer estamos ya como cuando sali�� el primer iPhone��, dice Javier de Alfonso, fundador de Voces en la Red. La ventaja de disponer de una voz sintetizada es, obviamente, que no se requiere de un humano que locute cada nuevo v��deo o cada cambio en el contestador autom��tico. Pronto incluso la m��quina ser�� capaz de ��leer�� lo que el generador de textos cree, sin apenas latencia. Es decir, hablar�� improvisando de cualquier tema, casi como en una conversaci��n telef��nica natural.

Voces en la Red colabora con una start-up canadiense, Resemble, para que mejore su cat��logo de espa?ol y poder comercializarlo. Todos estos avances son casi reales en ingl��s, pero en espa?ol a��n queda mucha edici��n y retoques. A preguntas de este peri��dico, en Resemble lo explican as��: ��La mayor parte del trabajo de modelado de idiomas con inteligencia artificial es espec��fico del ingl��s. Nuestro enfoque principal ahora es mejorar la naturalidad y la prosodia del espa?ol. Tambi��n por el tipo de nuestros clientes, a menudo encontramos que el spanglish es com��n. El cambio de idioma es un ��rea clave de investigaci��n para nosotros��, dicen.

Para esa mejora de la m��quina, el trabajo de profesionales como Begonya Ferrer es indispensable. Explica que cada vez recibe m��s peticiones de este tipo de grabaciones as��pticas, sin saber muy bien para de qui��n son ni para qu��. ��Trabajo para mucha gente��, dice Ferrer. ��Hago cada vez m��s proyectos para entrenar a robots. No dan mucha informaci��n a los locutores. Trabajo online con gente de todo el mundo. Me han pedido incluso bastantes proyectos desde China. Te hacen leer fragmentos de audiolibros y si faltan fonemas te mandan m��s textos. Las condiciones t��cnicas son muy espec��ficas, muy diferentes a la publicidad, sonido muy seco, limpio, que no suba de tantos decibelios��, a?ade.

A veces le hacen repetir frases enteras tantas veces como palabras tenga esa frase, haciendo ��nfasis en una palabra distinta en cada lectura. Es f��cil pensar que el acceso a las horas de grabaci��n que tienen Amazon, Google y Microsoft es un orden de magnitud distinto. Microsoft, por ejemplo, ya ofrece a clientes preseleccionados servicios de este tipo: ��Los clientes deben cargar los datos de entrenamiento de su locutor preferido junto a un archivo de audio con el locutor expresando su consentimiento verbal. El entrenamiento personalizado de Neural Voice comienza con aproximadamente 30 minutos de datos de voz (o 300 oraciones grabadas) y el tama?o de datos que recomendamos es aproximadamente 2 a 3 horas, o 2000 expresiones grabadas��, explican fuentes de Microsoft a preguntas de este peri��dico.

A partir de ah��, empresas como WarnerBros, la BBC o Duolingo lo van usando para algunos de sus servicios. Este tipo de soluciones ya est��n disponibles. De Alfonso, de Voces en la Red, cree que pronto podr�� usarse para locuciones m��s complejas pero igualmente sencillas, como una noticia de un informativo o un bolet��n de radio. Pero a��n queda para proezas mayores como la ��lectura de un relato er��tico��.

A?os para el doblaje profesional

Desde el sector m��s centrado en el doblaje, ven este progreso como una amenaza cierta, pero a��n a a?os vista. ��Hemos visto demos espectaculares, pero las aplicaciones reales a��n est��n lejos��, dice ?ngel Mart��n, director de la empresa de doblaje Eva Localisation. ��No hay herramientas a��n para poner tu serie original y que te la devuelva adaptada a otra lengua��.

Dicho esto, sin embargo, s�� hay espacio para otro tipo de aplicaciones, seg��n Mart��n: ��Hay millones de horas en redes en YouTube o TikTok con contenido personal donde los derechos son menos significativos o que no requieren tanta precisi��n porque lo que quieren es llegar a cuanto m��s p��blico sea posible��, dice, en referencia a productos que por sus exigencias menores ya pueden usar este tipo de voces.

?Algo de todo esto hace poner nerviosos a actores de doblaje? De momento, no. ��La industria no est�� preparada aunque estas herramientas est��n disponibles. Eso no significa que no estemos todos interesados en ver c��mo evoluciona��, a?ade Mart��n. La futura capacidad de la inteligencia artificial de encajar las palabras m��s adecuadas en otra lengua en los labiales de un actor parece inevitable. Pero por ahora no es inminente.

El sector vive adem��s un momento de ��vacas gordas��, dice Alex Mohamed, director t��cnico y de seguridad de los estudios Deluxe. ��Hay una cantidad de trabajo ingente y hay poco tiempo de ver qu�� ocurre. Adem��s, no ha aparecido ning��n ejemplo para que nadie se preocupe. Ocurrir�� con los a?os. Es probable��, a?ade.

Hay tambi��n pendiente un debate legal m��s complejo probablemente que con otros productos salidos de la inteligencia artificial: ��Las voces est��n sujetas a derechos. ?Qu�� ocurrir�� cuando una persona fallezca? ?Qu�� ocurrir�� si cojo la voz de alguien que acaba de fallecer, cambi�� ligeramente el timbre y la uso?��, dice Mohamed. La combinaci��n de varios timbres humanos dar�� una voz original que no tendr�� derechos. Una cosa es clonar una voz de una actriz concreta, que est�� de acuerdo y puede reclamar sus derechos, y otra usar su timbre en un c��ctel que produce algo nuevo.

Puedes seguir a EL PA?S TECNOLOG?A en Facebook y Twitter o apuntarte aqu�� para recibir nuestra newsletter semanal.

Sobre la firma

Jordi P��rez Colom��

M��s informaci��n

��?Quieres cobrar tu salario en streaming?�� Por qu�� los proyectos cripto son tan dif��ciles de entender

Jordi P��rez Colom�� | Barcelona

��Soy catedr��tico de inform��tica. Como mis colegas, s�� que la tecnolog��a de bitcoin es basura��

Jordi P��rez Colom��

Suscr��bete para seguir leyendo

A?os para el doblaje profesional

Sobre la firma

M��s informaci��n

��?Quieres cobrar tu salario en streaming?�� Por qu�� los proyectos cripto son tan dif��ciles de entender

��Soy catedr��tico de inform��tica. Como mis colegas, s�� que la tecnolog��a de bitcoin es basura��

Archivado En