El programa que amenaza a los teclados ya entiende 34 idiomas
El asistente de voz de Google es capaz de comprender dos millones de palabras en espa?ol. Los ingenieros aspiran a ense?arle 300 idiomas y en el camino se topan con dificultades similares a las de un principiante humano
En la ¨²ltima entrega de Stars Wars?hasta la fecha, el Episodio III, al larguirucho y remilgado robot C-3PO le borran la memoria para que no recuerde jam¨¢s que el padre del beb¨¦ Luke Skywalker es el exjedi Anakin, luego conocido como Darth Vader. Por suerte, no le eliminan ni uno de los "seis millones de formas de comunicaci¨®n" con los que se gana la vida como int¨¦rprete de un conf¨ªn a otro de la galaxia. La versi¨®n real del androide con cara de pasmado son los asistentes de voz, como el de Google, aunque este solo alcance a entender y transcribir 34 idiomas. Es una nimiedad en comparaci¨®n con el curr¨ªculum gal¨¢ctico, pero tambi¨¦n un logro suficiente para plantar cara al componente m¨¢s antiguo de los ordenadores: el teclado.
El asistente digiere ¡ªprocesa¡ª cada d¨ªa el equivalente a 30 a?os de audio
El qwerty est¨¢ sentenciado a desaparecer. "En dos a?os, ser¨¢ irrelevante", sostiene el ingeniero Pedro Moreno (Madrid, 1972), uno de los cerebros tras el asistente?Search by Voice, un megaproyecto que la compa?¨ªa de Alphabet desarrolla en su poco conocida sede de Nueva York. "Los teclados quedar¨¢n solo para corregir textos, y muy de vez en cuando. Los sistemas de voz tambi¨¦n propondr¨¢n esas correcciones". De hecho, a Google ya se le pueden dictar textos largos. La traducci¨®n autom¨¢tica, los subt¨ªtulos inmediatos en una pel¨ªcula extranjera o dar instrucciones a un coche mientras se conduce son solo otras aplicaciones jugosas de esta tecnolog¨ªa.
Curiosidades del buscador
Hay m¨¢s b¨²squedas en Google hechas a trav¨¦s de dispositivos m¨®viles que de ordenadores en 10 pa¨ªses, incluyendo Estados Unidos y Jap¨®n. Las que se hacen por voz en m¨®viles se han incrementado m¨¢s del doble solo en el ¨²ltimo a?o.
Un 15% de las b¨²squedas que recibe Google todos los d¨ªas no se hab¨ªa realizado antes.
Cada mes se realizan m¨¢s de 100.000 millones de b¨²squedas en Google. El 30% de las que se hacen con el m¨®vil est¨¢n relacionadas con una ubicaci¨®n.
El asistente de Google digiere ¡ªprocesa¡ª cada d¨ªa el equivalente a 30 a?os de audio. Tan solo en espa?ol, entiende dos millones de t¨¦rminos. El Diccionario de la lengua espa?ola de la Real Academia recoge algo m¨¢s de 93.000. Las formas verbales, nombres propios ¡ªlugares, apellidos, productos¡ª, t¨¦rminos t¨¦cnicos y hasta los nombres de las webs ¡ªfeisbukpuntocom, elpaispuntoes¡ª engrosan una gran parte del glosario hablado que podemos confiar que transcriba sin pegas el asistente.
"Una persona normal se defiende con veinte o treinta mil palabras a lo largo del a?o, pero la actualidad hace com¨²n, de golpe, t¨¦rminos que hasta ese momento eran muy inusuales o desconocidos por completo". Lo ejemplifica el ingeniero con el caso de la explosi¨®n en 2010 del volc¨¢n island¨¦s Eyjafjallaj?kull (pron¨²nciese algo as¨ª como "eiafiak-laikutl"). Es dif¨ªcil pensar en un mejor ejemplo de palabra extra?a, imprevisible, que repentinamente aparece por doquier, tambi¨¦n en textos en espa?ol. Google detect¨® autom¨¢ticamente que el top¨®nimo se empezaba a usar en los medios de comunicaci¨®n y lo incluy¨® de inmediato en su enorme glosario. Las noticias de la prensa digital se le antojan un gran caladero de nuevos t¨¦rminos, pero tampoco es que sea inagotable: a partir de los dos millones de palabras "hay que empezar a reba?ar en el fondo del barril para encontrar palabras que de verdad se usen alguna vez", descubre Pedro Moreno.
El asistente, al incorporar el ruso, se top¨® con la dificultad de entender tres g¨¦neros y seis declinaciones distintas
Esos dos millones son el vocabulario m¨¢ximo al que puede aspirar los idiomas que reconoce el asistente de voz de Google. El primero ¡ªa qu¨¦ extra?arse¡ª fue el ingl¨¦s, pero para el segundo quisieron ponerse el list¨®n bien alto con una lengua llena de peculiaridades: "Fuimos a por el chino mandar¨ªn porque era tan diferente del ingl¨¦s que sab¨ªamos que nos iba a abrir la mente y nos obligar¨ªa a tener en cuenta elementos del lenguaje que quiz¨¢ nos servir¨ªan para otras lenguas". El ingeniero madrile?o, que confiesa hablar solo espa?ol e ingl¨¦s, es el responsable de a?adir nuevos idiomas y de mejorar la calidad de los ya disponibles.
La invenci¨®n del espacio en blanco
Algunas de las dificultades que encuentra un principiante cuando abre el m¨¦todo de un idioma extranjero no son exclusivas del ser humano. Cuando un hispanohablante se enfrenta al ruso, le asustar¨¢ la enorme variedad de palabras declinadas. El asistente de voz de Google tambi¨¦n tuvo que entender c¨®mo es eso de que una misma palabra pueda tener tres g¨¦neros y seis variaciones dependiendo si sirve para decir d¨®nde est¨¢ algo, de qui¨¦n es o para qu¨¦ se utiliza. Cuando un aprendiz aborda por primera vez el idioma franc¨¦s, probablemente le lleve tiempo dominar la liaison o distinguir si un adjetivo que le dicen es masculino o femenino. En el chino, no solo le agobiar¨¢ la enorme diferencia del vocabulario, sino, entre tantas otras rarezas, la escritura. Todas estas peculiaridades tambi¨¦n resultaron dif¨ªcil al principio para los programadores del software: "Siempre suelo bromear", abunda el experto, "con una gran invenci¨®n occidental: el espacio en blanco. En el japon¨¦s o el chino la escritura es una largu¨ªsima cadena de caracteres unidos, que el lector nativo s¨ª sabe separar en palabras, aunque puede que no siempre exista una convenci¨®n de en qu¨¦ lugar pondr¨ªa el espacio".
Idiomas de Voice Search
El asistente de voz maneja los siguientes idiomas (en algunos casos, distingue como diferentes idiomas las variedades de determinados pa¨ªses): afrik¨¢ans, alem¨¢n, ¨¢rabe (distingue las variedades de Egipto, Jordania, L¨ªbano, Kuwait, Palestina, Israel, Emiratos ?rabes Unidos, Arabia Saud¨ª y Catar), b¨²lgaro, catal¨¢n, checo, chino canton¨¦s o yu¨¨, chino mandar¨ªn (modalidad tradicional Taiw¨¢n, simplificado China y simplificado Hong Kong), coreano, eslovaco, espa?ol (variedades de Hispanoam¨¦rica y de Espa?a), euskera, finland¨¦s, franc¨¦s, gallego, hebreo, holand¨¦s, h¨²ngaro, indonesio, ingl¨¦s (variedades de Australia, Canad¨¢, India, Nueva Zelanda, Sud¨¢frica, Reino Unido y Estados Unidos), island¨¦s, italiano, japon¨¦s, lat¨ªn, malayo, noruego, polaco, portugu¨¦s (variedades de Brasil y Portugal), rumano, ruso, serbio, sueco, turco y zul¨².
Tras penar con el chino, las dos siguientes lenguas que aprendi¨® el asistente,?el japon¨¦s y el coreano, ya no le resultaron tan dif¨ªciles. "Cuando desarrollas un algoritmo que te separe las palabras en chino, puedes readaptarlo para el japon¨¦s", explica Moreno, "y el algoritmo para interpretar los diferentes tonos, tambi¨¦n se aprovechaba para el tailand¨¦s o el vietnamita". En mandar¨ªn, dependiendo del tono con se pronuncie, ma puede significar madre, s¨¦samo, caballo o rega?ar. La s¨ªlaba tambi¨¦n sirve como part¨ªcula que marca que el hablante est¨¢ preguntando algo.
Los modelos que desarrolla Moreno ya han sido capaces de capturar estos misterios de la fon¨¦tica, la morfolog¨ªa o la sintaxis, pero no para comprender que "solo un 9% de las b¨²squedas en ingl¨¦s sean por voz, frente a un 25% de los rusos", ejemplifica divertido Pedro Moreno.
Tras los gigantes de Extremo Oriente, le toc¨® el turno a los grandes idiomas nacidos en Europa, como el espa?ol. Con esta ortograf¨ªa nuestra, tan envidiablemente fon¨¦tica, ?qu¨¦ dificultad encontraron los ingenieros de Google para que su programa transcribiese a la perfecci¨®n "electroencefalografista", "esternocleidomastoideo" o incluso "el cielo est¨¢ enladrillado, qui¨¦n lo desenladrillar¨¢"? "Las tildes, o m¨¢s bien que la gente no las ponga o las ponga mal", confiesa Pedro Moreno; "tuvimos que adaptar el algoritmo para que las corrigiera". El esfuerzo, por fortuna, result¨® ¨²til para aplicarlo a idiomas con un n¨²mero mayor de acentos que el castellano, como el franc¨¦s o el checo.
A por los 300
Seg¨²n la publicaci¨®n The Ethnologue: Languages of the World, en el mundo hay 304 idiomas con m¨¢s de un mill¨®n de hablantes, y representan solo algo m¨¢s del 4% de las 7.102 catalogadas. "Aspiramos a incluir todas esas", se?ala Moreno, pero con orden y criterio: "Valoramos a un nuevo candidato por su n¨²mero de hablantes y tambi¨¦n por el inter¨¦s estrat¨¦gico de la compa?¨ªa, aunque a veces tambi¨¦n influye la curiosidad intelectual".
Lo pr¨®ximo ser¨¢ incorporar lenguas de la India y el suajili, el idioma en el que se comunican al menos 45 millones de habitantes del ?frica oriental. "?frica y la India son los dos grandes mercados emergentes para Google. Hay que tener en cuenta que all¨ª el acceso a Internet se har¨¢ sobre todo por m¨®vil, por las carencias en fibra ¨®ptica de sus infraestructuras".
Tambi¨¦n van a mejorar la comprensi¨®n del ingl¨¦s que se habla en el continente africano. Precisamente, la diferencia fon¨¦tica ha hecho que Google separe al menos en dos grupos principales a los anglohablantes: ingl¨¦s brit¨¢nico e ingl¨¦s americano. En el caso del espa?ol, comenzaron abordando el idioma como cuatro diferenciados: norteamericano, centroamericano, sudamericano y el hablado en Espa?a. Ahora han integrado en uno ¨²nico todas las variedades del espa?ol de Am¨¦rica.
Ni de ciencias ni de letras
El equipo ha dejado atr¨¢s la vieja distinci¨®n entre gente de letras y de ciencias: tan necesario resultan los ingenieros que desarrollan los algoritmos como los ling¨¹istas que desentra?an la complejidad de un idioma. Abundan de hecho los perfiles mixtos, de inform¨¢tico-ling¨¹istas. En plantilla est¨¢n los que cubren las 30 lenguas m¨¢s hablados. Cuando se abordan nuevos idiomas, como el t¨¦lugu de la India (15? idioma m¨¢s hablado del mundo, 75 millones de hablantes) o el suajili, contratan a especialistas durante un tiempo.
"A veces, su trabajo se muy complejo", reconoce admirado Pedro Moreno. En dan¨¦s, por ejemplo, no hab¨ªa consenso entre los especialistas sobre c¨®mo se pronunciaban varias palabras: "Anotaban todas las variaciones que aparec¨ªan. Es un idioma que est¨¢ continuamente cambiando".
Los ling¨¹istas socorren a los ingenieros cuando no saben bien qu¨¦ puede estar fallando. Y para desarrollar gram¨¢ticas: "El caso m¨¢s habitual es c¨®mo transcribir los n¨²meros escritos con cifras a texto y viceversa: pensemos en que en franc¨¦s, por ejemplo, el guarismo 90 equivale hablado y escrito en letra a cuatro-veinte-diez. Pensemos tambi¨¦n en c¨®mo decimos un n¨²mero de tel¨¦fono a alguien: ?cada cifra suelta, agrupada de dos en dos cifras, de tres en tres...?", se pregunta el experto.
Ha sido dif¨ªcil que las m¨¢quinas entendieran a los ni?os. Solo se ha conseguido, y en parte, hace un a?o
Las dificultades no son solo fon¨¦ticas o gramaticales. Entender a los ni?os ha tra¨ªdo quebraderos de cabeza y solo se ha conseguido, y a¨²n parcialmente, hace un a?o. "Tambi¨¦n hay que pensar en todo lo que acompa?a el habla", se?ala Moreno refiri¨¦ndose al ruido ambiente, los dialectos, los titubeos al hablar, las repeticiones, o lo que se llama code switching (cambio de c¨®digo): hablantes de idiomas tan en contacto con otros que, en funci¨®n del contexto, pueden incorporar palabras de uno u otro sin previo aviso. "Esto es muy habitual en algunos idiomas de la India, como las que usan el alfabeto devanagari. La gente escrib¨ªa con esos caracteres palabras inglesas, pero por estar escritas en otro alfabeto no las reconoc¨ªamos como palabras extranjeras y nos perd¨ªamos".
Otra dificultad en la que est¨¢n trabajando es la puntuaci¨®n. Los criterios para poner coma, punto o punto y coma son difusos: concretarlos en un algoritmo no es cosa sencilla. Tampoco resulta f¨¢cil comprender las frases largas. "El sistema puede entender bien 'pon una alarma a las 7', pero no tanto 'por favor, me gustar¨ªa que me pusieras el despertador para que suene a eso de las siete", ejemplifica Pedro Moreno, embarcado ahora en que la m¨¢quina se valga del contexto de quien le habla. Que sepa que cuando, por ejemplo, se refieren a una persona por su nombre de pila no hablan de todas las Luc¨ªas todos los Jaimes, sino de una hermana o un amigo concreto del hablante. Por cierto, uno de los nombres m¨¢s arduos de reconocer es C-3-P-O. Los asistentes de voz lo pasan mal transcribiendo a texto las letras sueltas.
De entender una simple cifra a millones de palabras
Que una m¨¢quina entendiera simplemente un d¨ªgito del 0 al 9 cuando lo escuchaba era un prodigio hasta no hace tantos a?os. Bell Labs, en los 50, hab¨ªa logrado que una m¨¢quina reconociera una palabra siempre y cuando la pronunciara un ¨²nico hablante. Para eso hac¨ªa falta emplear m¨¢quinas gigantescas.
Interesado en su aplicaci¨®n masiva las escuchas en espionaje, el gran laboratorio de investigaci¨®n militar de Estados Unidos, DARPA, cre¨® en 1971, con la colaboraci¨®n de IBM o la Universidad de Stanford, su programa Speech Understanding Research, que aspiraba a lograr un vocabulario de 1.000 palabras. Las carencias en inform¨¢tica ¡ªel ordenador m¨¢s potente mediados los setenta solo alcanzaba los 4 MB de RAM¡ª le impidieron llegar muy lejos. Con el crecimiento de la capacidad de los ordenadores y la h¨¢bil aplicaci¨®n de las redes neuronales, la ciencia despeg¨®.
Los laboratorios Bell, Hewlett-Packard, IBM o Microsoft hab¨ªan sentado las bases de una tecnolog¨ªa, hasta que sufrieron el sorpasso de las nativas de Internet Google, Facebook o Baidu. En 2004, cuando el ingeniero Pedro Moreno puso por primera vez un pie en las oficinas de Google en Nueva York, las mecas del reconocimiento eran IBM y la Universidad de Cambridge. "Apenas cont¨¢bamos con 30 ingenieros, que trabajaban sobre todo en c¨®mo mejorar las b¨²squedas. Los vocabularios no sol¨ªan superar las 80.000 palabras, y los sistemas se equivocaban en un 20% de los casos". La tasa de error por palabra actual de Google es del 8%.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.