Del habla al texto y del texto al habla
Los sistemas de reconocimiento y s¨ªntesis de voz salen de la infancia
"?ste es un servicio de informaci¨®n telef¨®nica. Si quiere m¨¦dicos, diga m¨¦dico. Si es cines, diga cine". Quien responde a la llamada en el Ayuntamiento franc¨¦s de Aillon no es un funcionario, sino un ordenador que utiliza la tecnolog¨ªa del habla de forma experimental. "Dentro de las industrias de la lengua, la tecnolog¨ªa del habla trata de la conversi¨®n autom¨¢tica de ¨¦sta a texto y viceversa", explica Jos¨¦ Manuel Pardo, que participa en el seminario Las industrias de la lengua, en la Universidad Internacional Men¨¦ndez Pelayo.
"Un conversor habla-texto en t¨¦rminos simples es una m¨¢quina que sabe escribir al dictado simulando esta cualidad humana", se?ala Jos¨¦ Manuel Pardo, ingeniero electr¨®nico de la Universidad Polit¨¦cnica de Madrid. "Los reconocedores de habla utilizan t¨¦cnicas muy diferentes a las que utiliza un ser humano y tienen unas prestaciones evidentemente mucho m¨¢s limitadas. El mecanismo de reconocimiento de habla por el hombre es tan complejo que no existe actualmente una m¨¢quina capaz de igualarlo". De entre las posibles ventajas de estos conversores, Pardo resalt¨® en el seminario el ahorro que hay en el caudal de informaci¨®n necesario para la transmisi¨®n, mucho menor en el caso de texto que en el de voz. Otra de las ventajas que ofrece es acceder a bases de datos sin que se necesite un terminal de ordenador. Un conversor texto-habla podr¨ªa permitir el acceso a los datos mediante tel¨¦fono. Personas minusv¨¢lidas f¨ªsicas o visuales utilizando la voz podr¨ªan beneficiarse de las posibilidades de los ordenadores sin la limitaci¨®n que lleva el manejo de los teclados.
La primera generaci¨®n de reconocedores de habla comerciales aparecen en los a?os setenta como el WIP 100 de la empresa Thereshold Tecnology. Este sistema funcionaba palabra por palabra, con un solo locutor y con una capacidad de 10 a 50 palabras. En 1986 IBM consigui¨® un prototipo de laboratorio que reconoc¨ªa 5.000 palabras. En 1987 otro que reconoc¨ªa 20.000, ambos para un solo locutor. Si otra persona quer¨ªa utilizarlo, se necesitaba entrenarlo grabando 20 minutos con el habla del nuevo locutor.
Actualmente la empresa Dragon tiene un sistema comercializado que reconoce 5.000 palabras de un solo locutor. En 1986 ATT comercializ¨® su sistema Conversat, que es capaz de reconocer series de d¨ªgitos y no s¨®lo palabras aisladas, pronunciado por cualquier locutor a trav¨¦s del tel¨¦fono.
Frases
Otro paso ha sido el desarrollo de m¨¢quinas que no s¨®lo reconocen el habla aislada (palabra a palabra) sino tambi¨¦n la continua (frases). "Aunque existen todos estos aparatos en el mercado, a¨²n no son ampliamente utilizados y les queda por resolver muchos problemas t¨¦cnicos, ya que estos sistemas no funcionan cuando el vocabulario es grande, porque confunden las palabras parecidas, y el m¨¦todo, al no ser independiente del locutor, produce muchos errores", explic¨® Pardo.Para el futuro IBM y ATT tienen entre sus objetivos hacer una m¨¢quina de escribir operada por habla continua con 20.000 palabras y que se adapte a cualquier locutor para 1992. Jap¨®n, por otro lado, espera tener un tel¨¦fono que traduzca del ingl¨¦s al japon¨¦s y viceversa, tambi¨¦n para habla continua, gran vocabulario e independiente del locutor para el a?o 2001. Por otra parte, Europa, mediante el programa Sprit est¨¢ desarrollando una m¨¢quina llamada Pol¨ªglota para siete idiomas, en la que colabora la universidad Polit¨¦cnica de Madrid.
En cuanto a la conversi¨®n texto-habla, explic¨® Pardo que, aunque la inteligibilidad de algunos conversores texto-habla actuales es muy cercana al habla natural, su parecido todav¨ªa est¨¢ muy lejano de ella y es muy dificil conseguir distintas voces con diferentes estilos. Estos complejos sistemas constan de dos partes fundamentales: un procesador de s¨ªmbolos y abreviaturas y otro sint¨¢ctico para determinar las categor¨ªas de las palabras como partes de la oraci¨®n. Tambi¨¦n existen m¨®dulos sem¨¢nticos para analizar el significado de una frase y darle el ¨¦nfasis adecuado, pero esto es muy dif¨ªcil de aplicar porque no se conoce suficientemente la relaci¨®n sem¨¢ntica-prosodia.
Por ¨²ltimo, el m¨®dulo de conversi¨®n de letras a sonidos trata de extraer correctamente la pronunciaci¨®n de cada palabra y otorgarles su acento fon¨¦tico. En el caso del espa?ol no es dif¨ªcil al existir reglas bien definidas. La mejora de la calidad de estos conversores depender¨¢ de la uni¨®n de distintas ¨¢reas de la tecnolog¨ªa hasta conseguir que no exista limitaci¨®n en el texto de entrada y se obtengan distintas voces y estilos.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.