Maya, zapoteco, n¨¢huatl y m¨¢s de 100 idiomas se suman a Google Translate en su mayor expansi¨®n en la historia
Las nuevas integraciones al traductor pueden beneficiar a 614 millones de personas alrededor del mundo, que representan el 8% de la poblaci¨®n mundial
En 2004, Sergey Brin, cofundador de Google, us¨® un programa de traducci¨®n que la compa?¨ªa contrat¨® para traducir un correo del coreano al ingl¨¦s. De acuerdo al traductor, el directivo recibi¨® el mensaje ¡°The sliced raw fish shoes it wishes. Google green onion thing!¡± (¡±El pescado crudo en rodajas calza lo que desee. ?Busca en Google la cebolla verde!¡±). Ese correo sin sentido fue la semilla de Google Translate, que hoy puede traducir en tiempo real 244 idiomas, de los cuales 111 se acaban de sumar y entre los que se encuentran lenguas ind¨ªgenas de M¨¦xico como el maya, n¨¢huatl y zapoteco.
Con PaLM 2, el modelo de lenguaje extenso que sustenta la Inteligencia Artificial de Google, la compa?¨ªa incorpor¨® la traducci¨®n autom¨¢tica Zero-Shot, que le permite aprender autom¨¢ticamente a traducir a otro idioma sin la necesidad de ver un ejemplo. Gracias a eso, se ha podido sumar m¨¢s de un centenar de idiomas al traductor. De acuerdo con Google, la tecnolog¨ªa es impresionante, mas no perfecta, y por eso siempre hay que tomar en cuenta que puede tener errores.
Traducci¨®n de lenguas ind¨ªgenas
En 2022, con la introducci¨®n de Zero-Shot, Google sum¨® lenguas ind¨ªgenas de Am¨¦rica Latina como el guaran¨ª (siete millones de hablantes en Paraguay, Bolivia, Argentina y Brasil) y el aimara (dos millones en Chile, Per¨² y Bolivia). La nueva expansi¨®n suma lenguas ind¨ªgenas de M¨¦xico, como el n¨¢huatl, con un mill¨®n de hablantes en el centro de M¨¦xico; el zapoteco, con cerca de 500.000 en Oaxaca y Veracruz en el sur del pa¨ªs; el maya yucateco, hablado por casi 800.000 personas en el sur de M¨¦xico y parte de Belice; y el q¡¯eqchi¡¯, la lengua de cerca de 1,3 millones de personas en el sur de M¨¦xico, Belice y Guatemala.
M¨¦xico es uno de los pa¨ªses con mayor diversidad ling¨¹¨ªstica en el mundo. En el territorio se hablan 68 lenguas ind¨ªgenas, y las que se suman a Google Translate son algunas de las que cuentan con m¨¢s hablantes. De acuerdo con la Secretar¨ªa de Cultura, otras de las lenguas m¨¢s habladas en M¨¦xico son el tsotsil, tseltal, otom¨ª, mixteco, totonaco, chol y mazateco. Del otro lado de la moneda, las lenguas en riesgo extremo de desaparecer debido al bajo n¨²mero de hablantes son el ku¡¯ahl y kiliwa de Baja California, el awakateko de Campeche, el mocho? de Chiapas, el ayapaneco de Tabasco o el kaqchikel de Quintana Roo.
Google ya incorpora lenguas en peligro, como el man¨¦s, lengua celta de la Isla de Man que estuvo a punto de desaparecer en 1974 con la muerte del ¨²ltimo hablante nativo, pero que gracias a un movimiento de revitalizaci¨®n, hoy cuenta con miles de hablantes y ahora es parte de la red de Google Translate.
La complejidad de la traducci¨®n
La empresa tambi¨¦n ha enfocado el trabajo en regiones que hab¨ªan sido pasadas por alto. ¡°Alrededor de una cuarta parte de las nuevas lenguas provienen de ?frica, lo que representa nuestra mayor expansi¨®n de lenguas africanas hasta la fecha: fon, kikongo, luo, ga, swati (o suazi), venda y w¨®lof¡±, dijo en un comunicado. Desde 2022, Google Translate tiene la iniciativa de sumar al traductor los mil idiomas m¨¢s hablados en el mundo.
A pesar de que los modelos son entrenados a partir de la inteligencia artificial m¨¢s poderosa de Google, la fidelidad en el lenguaje a¨²n est¨¢ lejos. La subjetividad, aunada a las costumbres de ¨¦pocas y regiones, no facilita el trabajo para la empresa. Un ejemplo est¨¢ en la incorporaci¨®n del canton¨¦s al traductor. Esta lengua es hablada por cerca de 70 millones de personas y era uno de los lenguajes m¨¢s solicitados para incluir. La empresa dice que se trata de un idioma que fue dif¨ªcil de incorporar porque a menudo en la escritura se superpone con el mandar¨ªn, lo que dificulta la b¨²squeda de datos y el entrenamiento de modelos.
De acuerdo a Google, ¡°los idiomas tienen una inmensa variaci¨®n: variedades regionales, dialectos, diferentes est¨¢ndares ortogr¨¢ficos. De hecho, muchos idiomas no tienen una forma est¨¢ndar, por lo que es imposible elegir una variedad ¡®correcta¡¯. Nuestro enfoque ha sido priorizar las variedades m¨¢s utilizadas de cada idioma. Por ejemplo, el roman¨ª es una lengua que tiene muchos dialectos en toda Europa. Nuestros modelos producen texto m¨¢s cercano al vlax romani sure?o, una variedad com¨²nmente utilizada en l¨ªnea. Pero tambi¨¦n mezcla elementos de otros, como el vlax del norte y el roman¨ª de los Balcanes¡±. Algo similar sucede con las lenguas ind¨ªgenas de M¨¦xico, que tienen variantes de acuerdo a la regi¨®n, por lo que no se puede esperar que sea fiel a un solo lugar. Google Translate ya cuenta con algunos de los 111 idiomas en su sitio web y en la aplicaci¨®n, el resto se incorporar¨¢ en los pr¨®ximos d¨ªas.
Ap¨²ntese gratis a la newsletter de EL PA?S M¨¦xico y al canal de WhatsApp y reciba todas las claves informativas de la actualidad de este pa¨ªs.