El reconocimiento de voz salta al m¨®vil para atraer al consumo masivo
El m¨®vil acapara el desarrollo de 'software' de transcripci¨®n de voz - Tellme, Vlingo y Nuance buscan liderar un mercado en ebullici¨®n - Cuatro millones de personas ya han utilizado Spinvox en Espa?a
"Eeeeh, hummm, errrr..." Dudas, balbuceos, frases cortadas, ruido de fondo. Es la pesadilla de cualquier sistema de reconocimiento de voz: transcribir correctamente a texto todas las man¨ªas ling¨¹¨ªsticas de las que echamos mano en una conversaci¨®n coloquial. Para algunos expertos, es el obst¨¢culo que ha frenado la adopci¨®n de la tecnolog¨ªa. Lo importante, dicen, es la posibilidad de aplicarla al aparato que todos guardamos en el bolsillo: el m¨®vil.
Spinvox es un buen representante de este ¨²ltimo grupo. La compa?¨ªa se ha volcado en Espa?a, con un 110% de penetraci¨®n de terminales, tras su ¨¦xito en el Reino Unido. Permite dictar SMS al m¨®vil y enviarlos en formato de texto. Y viceversa: leer mensajes que alguien nos ha dejado en el buz¨®n. Se integra, adem¨¢s, en correo, blogs y redes sociales.
Si en medio de la calle nos ataca la urgencia del Twitter, nada de teclas. Dictamos al m¨®vil y el sistema publica la frase segundos despu¨¦s. Jerga incluida. Palabras como friqui o piltrafilla, que dejar¨ªan colgado a cualquier otro sistema, son reconocidas. ?C¨®mo? An¨¢lisis sem¨¢ntico.
El problema es sem¨¢ntico
"Cuando dejamos un mensaje utilizamos una gram¨¢tica terrible. El problema en realidad no es de reconocimiento, sino sem¨¢ntico y ac¨²stico. Es la gran oportunidad", dice Daniel Doulton, cofundador de Spinvox. La ratio de aciertos en la transcripci¨®n roza el ciento por ciento. Y la ventaja parece clara. "Es la regla de los dos sietes: es siete veces m¨¢s r¨¢pido leer un mensaje que escucharlo y siete veces m¨¢s r¨¢pido dictarlo que escribirlo".
En Espa?a, de la mano de Vodafone, cuatro millones de personas han convertido casi 20 millones de mensajes. Cifras rotundas. ?Podr¨ªa la telefon¨ªa resucitar la esperanza del reconocimiento de voz?
"El mercado en el m¨®vil est¨¢ creciendo m¨¢s r¨¢pido que en el PC", asegura Doulton. Y a juzgar por el n¨²mero de contendientes, bien podr¨ªa ser as¨ª. Tellme Networks, adquirida por Microsoft, aspira a crear un nuevo tipo de b¨²squeda. Al decir "restaurante tailand¨¦s", un mapa se abre en el m¨®vil, nos localiza v¨ªa GPS y muestra el local m¨¢s cercano.
Con Vlingo, los adictos al Blackberry pueden enviar emails y SMS, o crear tareas en el calendario. S¨®lo tienen que pedirlo. Y servicios como ChaCha, un cruce entre Google SMS y Wikipedia, arrasan: basta con llamar a un n¨²mero, formular cualquier pregunta y recibir en unos minutos la respuesta en mensaje de texto.
La duda abierta apunta al PC, donde aplicaciones como Dragon Naturally Speaking, del gigante Nuance, llevan a?os intentando colarse en los escritorios. La ¨²ltima versi¨®n, estrenada hace unas semanas, reduce el 20% los errores y el 50% el tiempo de espera en la aparici¨®n de palabras.
El problema es que casi nadie lo utiliza a diario en la escritura de textos o en el manejo del ordenador. "La gente es muy incr¨¦dula, creen que estos programas no funcionan. Simplemente es desconocimiento y no permitir un m¨ªnimo de tiempo para acostumbrarse", aclara Olga Bahamontes, directora de Nuance en Espa?a.
JJ Merelo, conocido blogger espa?ol y profesor de arquitectura y tecnolog¨ªa de computadores en la Universidad de Granada, prob¨® Dragon una buena temporada. "Siguen siendo aplicaciones caras y no llegan al ciento por ciento de efectividad. Adem¨¢s, el lenguaje hablado es muy diferente del escrito, piensas m¨¢s cuando tecleas". La ausencia de versiones para Mac y Linux tampoco ayuda.
Su diagn¨®stico coincide con el de la Universidad Polit¨¦cnica de Valencia. Francisco Casacuberta codirige desde hace 22 a?os el grupo de investigaci¨®n de tecnolog¨ªas del habla, pionero en Espa?a. "Conseguir que la tecnolog¨ªa sea perfecta es imposible, estamos muy lejos, siempre tendr¨¢ que venir un humano a corregir por detr¨¢s".
Su equipo de 34 investigadores desarrolla programas que traducen autom¨¢ticamente a varios idiomas textos hablados, o predicen el significado de las palabras y evitan errores. "Ser¨ªa muy ¨²til en la transcripci¨®n de discursos o en procesos judiciales, pero a¨²n no est¨¢ lo suficientemente maduro".
Donde la tecnolog¨ªa ha calado es en ciertas especializaciones m¨¦dicas. Cada vez m¨¢s doctores dictan sus informes en lugar de escribirlos y ahorran tiempo en la visita de cada paciente. USP Hospitales instal¨® Speech Magic, de Philips, en los departamentos de radiolog¨ªa de 14 de sus 35 centros en Espa?a. Antes pasaban dos d¨ªas desde la escritura a la aprobaci¨®n de un documento. Ahora bastan 15 minutos.
"La tasa de acierto est¨¢ entre el 85% y el 90%. El radi¨®logo puede corregir por s¨ª mismo a medida que dicta, o enviar el archivo de audio y texto a un centro administrativo donde lo corrigen", explica Santiago Raventos, director de sistemas de informaci¨®n de USP. Nuance desembols¨® 66 millones de euros en octubre para hacerse con la unidad de Philips.
Casacuberta cree que en el futuro habr¨¢ una mezcla. "Imagen, sonido y superficies t¨¢ctiles. Reemplazar el rat¨®n ser¨¢ complicado". La respuesta, tal vez dentro de cinco a?os.
El ¨¦xito de la espa?ola Agnitio
Reconocer e identificar personas a trav¨¦s de su voz. A las im¨¢genes y huellas dactilares les ha salido un fuerte competidor. Con ratios de error inferiores al 3% y la posibilidad de ser utilizado de forma remota, el reconocimiento vocal comienza a complementar, e incluso sustituir, a los m¨¢s avanzados sistemas de biometr¨ªa.
En Espa?a, compa?¨ªas como Agnitio se han convertido en especialistas mundiales en este terreno. Su software lo utilizan cuerpos de seguridad y polic¨ªa en 20 pa¨ªses; entre ellos, Colombia, M¨¦xico y Finlandia. Gracias a ¨¦l mantienen un historial con voces de potenciales delincuentes. Algunos archivos de audio ya han sido utilizados en juicios en Alemania y Latinoam¨¦rica.
"Una ventaja frente a la biometr¨ªa de iris o de huellas es que no necesitas instalar equipamientos. Basta una l¨ªnea telef¨®nica fija o m¨®vil para transmitir los datos", reconoce Emilio Mart¨ªnez, director general de Agnitio.
Su otra aplicaci¨®n infalible: la atenci¨®n telef¨®nica en bancos y entidades financieras. ?C¨®mo asegurarse, m¨¢s all¨¢ de las contrase?as, que quien llama es realmente quien dice ser? "Es una forma muy efectiva de firmar transacciones financieras. Cuando llama un cliente, se contrasta su voz con el registro de sonido almacenado en el banco. Si ambos coinciden, se aprueba la transacci¨®n". Una nueva arma contra el fraude.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.