Los robots hablan ingl¨¦s, ?c¨®mo afecta esto a los humanos?
El menor peso de otras lenguas como el espa?ol frena la detecci¨®n de bulos o el acceso a servicios b¨¢sicos por parte de los ciudadanos
Terminator presum¨ªa de espa?ol en cada despedida. Con su ic¨®nico Hasta la vista, baby (traducido en Espa?a como Sayonara, baby) el androide m¨¢s famoso del cine demostr¨® que, aunque fuera angloparlante, ten¨ªa inter¨¦s en otros idiomas. Es lo que est¨¢ sucediendo, salvando las distancias y los viajes en el tiempo, con las tecnolog¨ªas del lenguaje del mundo real. Internet habla ingl¨¦s y por eso las inteligencias artificiales han aprendido antes el i...
Reg¨ªstrate gratis para seguir leyendo
Si tienes cuenta en EL PA?S, puedes utilizarla para identificarte
Terminator presum¨ªa de espa?ol en cada despedida. Con su ic¨®nico Hasta la vista, baby (traducido en Espa?a como Sayonara, baby) el androide m¨¢s famoso del cine demostr¨® que, aunque fuera angloparlante, ten¨ªa inter¨¦s en otros idiomas. Es lo que est¨¢ sucediendo, salvando las distancias y los viajes en el tiempo, con las tecnolog¨ªas del lenguaje del mundo real. Internet habla ingl¨¦s y por eso las inteligencias artificiales han aprendido antes el idioma de Shakespeare que cualquier otro. Pero la cosa est¨¢ empezando a cambiar. Alexa se defiende en espa?ol, catal¨¢n, italiano, portugu¨¦s, alem¨¢n, chino y japon¨¦s. Siri y Ok Google tambi¨¦n son pol¨ªglotas. Estos son los alumnos aventajados de la clase, los m¨¢s inteligentes de entre todas las inteligencias artificiales. El resto de algoritmos van rezagados en el complicado camino al multiling¨¹ismo. Y eso tiene consecuencias.
La tecnolog¨ªa, en la actualidad, es eminentemente angloparlante, lo que amplifica la brecha del idioma de millones de personas. Hace, por ejemplo, que las campa?as de desinformaci¨®n sean m¨¢s dif¨ªciles de detectar en espa?ol que en ingl¨¦s. El grupo Ya Basta, Facebook, liderado por una asociaci¨®n de juristas y activistas estadounidenses, denunciaba a principios de a?o como la red social se ha mostrado menos efectiva a la hora de combatir la desinformaci¨®n sobre la campa?a electoral de EE UU en espa?ol que en ingl¨¦s. Cinco de cada 10 publicaciones falsas en ingl¨¦s son r¨¢pidamente etiquetadas por Facebook. Solo una de cada 10 publicaciones falsas en espa?ol corren la misma suerte, seg¨²n un an¨¢lisis de Avaaz.
Una traducci¨®n de p¨¢ginas webs garantiza (o dificulta) el acceso a servicios b¨¢sicos. Esto es especialmente relevante en un entorno en el que las gestiones m¨¢s ordinarias, desde la cita m¨¦dica hasta la declaraci¨®n de la renta, se realizan por ordenador. Un estudio del Hospital Brigham and Women¡¯s de Boston (EE. UU.) descubri¨® que los pacientes que no hablaban ingl¨¦s ten¨ªan un 35 % m¨¢s probabilidades de morir de COVID-19 que aquellos que s¨ª lo hablaban. Por eso es importante que cada idioma hablado en el mundo offline tenga su representaci¨®n en el online. Y esto solo se puede conseguir alimentando con palabras a las voraces inteligencias artificiales.
¡°Ya que estamos hablando de lenguaje, es importante llamar a las cosas por su nombre¡±, se?ala en conversaci¨®n telef¨®nica Nuria Bel, catedr¨¢tica de Tecnolog¨ªas del Lenguaje de la Universidad Pompeu Fabra. ¡°La inteligencia artificial no es un resultado, es un m¨¦todo. Uno por el cual se entrena a los algoritmos con una gran cantidad de datos¡±. Esto se aplica a tres grandes campos. A la rob¨®tica, con resultados que van desde las aspiradoras inteligentes hasta el coche aut¨®nomo; a lo visual, detectando y clasificando im¨¢genes; y, por ¨²ltimo, a las tecnolog¨ªas del lenguaje. Bel cree que en los ¨²ltimos a?os hemos optado por hablar, en general, de inteligencia artificial ¡°porque suena menos prosaico¡± que tecnolog¨ªas del lenguaje. M¨¢s ¨¦pico. Pero no hay que olvidar que estas tienen una problem¨¢tica propia. La m¨¢s evidente es la atomizaci¨®n de sus resultados.
La rob¨®tica y la imagen se pueden entrenar de forma internacional sin grandes problemas. Los avances que hagan las empresas estadounidenses pueden beneficiar al resto del mundo por igual. Pero en las tecnolog¨ªas del lenguaje no. Aqu¨ª se necesita una apuesta de cada pa¨ªs para potenciar sus propias lenguas. Es lo que est¨¢ empezando a suceder. ¡°Estamos en un momento similar al que se dio en el siglo XIX con la cartograf¨ªa¡±, explica la experta. ¡°En los siglos anteriores los mapas reflejaban muy bien el Mediterr¨¢neo y muy mal el resto del mundo. Pero en el XIX los pa¨ªses se vieron en la necesidad de cartografiar en detalle su territorio. Esto es lo mismo pero con lenguas¡±.
Nuria Bel capitane¨® en 2015 (junto a su compa?ero Germ¨¢n Rigau) la iniciativa espa?ola para cartografiar su territorio ling¨¹¨ªstico. El Plan de Impulso de las Tecnolog¨ªas del Lenguaje se inici¨® con un informe en el que se?alaba el problema del uso de la inteligencia artificial en este campo. ¡°Para garantizar la disponibilidad de aplicaciones en espa?ol y lenguas cooficiales en Espa?a hay que aumentar el n¨²mero, la calidad y la disponibilidad de los recursos que les dan soporte¡±, se se?alaba entonces. Hay que alimentar a los algoritmos con m¨¢s palabras.
Wikipedia, la ¨²nica escuela p¨²blica de idiomas para algoritmos
La inteligencia artificial no convierte a un algoritmo en inteligente. Para que eso ocurra, pasa con los algoritmos como con las personas, este tiene que haber le¨ªdo mucho. ¡°Las redes neuronales van fatal hasta que no consiguen analizar una masa cr¨ªtica importante de texto¡±, confirma Bel. Para que un generador de textos funcione, por ejemplo, hacen falta 3.000 millones de palabras. ¡°Eso es toda la Wikipedia, todo Google Books y alg¨²n que otro corpus m¨¢s¡±, asegura. Esto supone varios problemas. El primero es que no todas las lenguas tienen esa cantidad de palabras digitalizadas. Si quieres saber qu¨¦ tal funciona una tecnolog¨ªa del lenguaje en un idioma en concreto, lo mejor es que eches un vistazo a c¨®mo est¨¢ representado ese idioma en internet.
La realidad ling¨¹¨ªstica en el mundo online no siempre es igual que en el offline. En Wikipedia hay 53 millones de p¨¢ginas en ingl¨¦s, frente a los siete millones de p¨¢ginas en castellano. El mismo n¨²mero de entradas tiene la enciclopedia online en italiano, un idioma mucho menos hablado. Esto desdibuja la importancia del castellano en el entorno online.
Hay casos m¨¢s extremos. Solo hay 52.000 art¨ªculos en la Wikipedia bengal¨ª, un idioma hablado por 237 millones de personas. La versi¨®n sueca tiene cerca de cuatro millones de entradas para una lengua que apenas hablan 10 millones de personas. En el mapa mundi de las lenguas digitales a¨²n hay zonas ignotas, mientras que otras est¨¢n representadas con fidelidad.
La enciclopedia online es una de las mejores bases de datos para entrenar a las tecnolog¨ªas del lenguaje.¡±Wikipedia es muy usada en este entorno porque es abierta y p¨²blica¡±, se?ala German Rigau, director adjunto del Basque Research Center for Language Technologies. Pero es una excepci¨®n. La mayor¨ªa de grandes bases de datos est¨¢n en manos de empresas privadas estadounidenses. Google, Facebook, Amazon, Microsoft¡ Son las que est¨¢n ganando esta carrera. En este sentido, Europa se encuentra en clara desventaja frente a EE UU: sus empresas son m¨¢s peque?as y su poblaci¨®n habla decenas de idiomas que parten de posiciones bien distintas. Pero algunas iniciativas, p¨²blicas y privadas, est¨¢n luchando por cambiar esta situaci¨®n.
Rigau forma parte de una de ellas, el programa European Language Equality. ¡°Estamos dise?ando una agenda y una hoja de ruta, cumpliendo un mandato del Parlamento Europeo, para llegar a la igualdad de las lenguas en Europa en el entorno online, para 2030¡±, se?ala el experto. M¨¢s de 21 idiomas europeos est¨¢n en peligro de extinci¨®n digital seg¨²n explica esta iniciativa en su web. Rigau denuncia c¨®mo lenguas no oficiales, con implementaci¨®n en lo oral, pero poco uso en lo online, se ven abocadas a este final. ¡°El aragon¨¦s se va a perder, el asturiano se va a perder. Apenas hay textos digitales escritos con estas lenguas¡±, lamenta. Para evitarlo, lo primero que se necesita son ¡°herramientas muy b¨¢sicas para crear plantillas de esos idiomas en Wikipedia. De esa forma ya se puede empezar a construir una base de datos¡±.
Wikipedia es el ¨²nico campo de entrenamiento de muchos algoritmos, pues sus datos son p¨²blicos en un entorno, el online, dominado por grandes empresas privadas. Es, para entendernos, la ¨²nica gran escuela p¨²blica de idiomas para algoritmos. Y este es el segundo gran problema. ¡°Las tecnolog¨ªas del lenguaje est¨¢n en manos de quien tiene los datos y estas son las grandes empresas privadas¡±, denuncia Rigau.
Bel se muestra de acuerdo en este an¨¢lisis y explica su preocupaci¨®n al respecto. ¡°Es un poco como con la banca, que nos dec¨ªan que se autorregulaba. Aqu¨ª pasa lo mismo, unas pocas empresas tienen todos los datos, y nos dicen que hay que hablar de inteligencia artificial ¨¦tica, que hay que confiar en que hagan las cosas bien¡±. Por eso Bel anima a que no se abandonen otras l¨ªneas de investigaci¨®n en las tecnolog¨ªas del lenguaje. La inteligencia artificial da buenos resultados, pero los procesos para llegar hasta ellos son complicados y opacos, se?ala.
Estos resultados son cada vez m¨¢s evidentes. Los algoritmos hablan ingl¨¦s, pero est¨¢n aprendiendo otros idiomas, adentr¨¢ndose en nuevos territorios. Para que el viaje sea fruct¨ªfero tienen que consultar un mapa preciso, hay que cartografiar las realidades ling¨¹¨ªsticas de todos los rincones del planeta. En este contexto el castellano, segunda lengua materna del mundo por n¨²mero de hablantes, parte de una situaci¨®n de ventaja. Aprovecharlo, coinciden los expertos, no solo es una cuesti¨®n de impulso econ¨®mico y estrategia sociopol¨ªtica. Es un aspecto clave para que los hispanohablantes se encuentren igual de protegidos y beneficiados que quienes hablan ingl¨¦s. El idioma que hablen y entiendan las m¨¢quinas incidir¨¢, de manera directa, en los derechos de los humanos que lo hablen.
Puedes seguir a EL PA?S TECNOLOG?A en Facebook y Twitter o apuntarte aqu¨ª para recibir nuestra newsletter semanal.