El 62% del contenido en l¨ªnea est¨¢ en ingl¨¦s: c¨®mo la tecnolog¨ªa protege las lenguas marginales en internet
Diferentes redes de acad¨¦micos y expertos trabajan para preservar idiomas, algunos con millones de hablantes, que tienen poco a ning¨²n registro en la web
Antes de realizar una b¨²squeda en Google o hacer una pregunta a ChatGPT en ingl¨¦s, espa?ol, mandar¨ªn o ruso, nadie se cuestiona si estas plataformas entender¨¢n el idioma. Se trata de lenguas que st¨¢n sobrerrepresentadas en la web. M¨¢s del 99% del contenido en l¨ªnea est¨¢ en solo 35 idiomas de los aproximadamente 7.000 que existen en el mundo (de los que m¨¢s de la mitad son orales), y solo el ingl¨¦s representa el 62%. Esto deja a miles de lenguas relegadas a un lugar marginal o, incluso, a la inexistencia en internet.
Por esta raz¨®n, grupos de expertos de todo el mundo se dedican a la tarea de preservar digitalmente las lenguas. Uno de estos es The Missing Scripts, una iniciativa que busca codificar todos los sistemas de escritura del mundo en el est¨¢ndar Unicode, el sistema inform¨¢tico universal permite identificar las formas de escritura para que puedan ser procesadas por diversos tipos de software. Las plataformas de inteligencia artificial, por ejemplo, dependen en gran medida del Unicode para el procesamiento de texto. Sin una lengua no est¨¢ en el Unicode, esta no puede ser utilizada en un ordenador.
De los 292 sistemas de escritura que existen, 146 no est¨¢n en el Unicode. Entre estos se encuentran no solo escrituras antiguas, algunas de las cuales a¨²n no se han descifrado en su totalidad, sino tambi¨¦n un gran n¨²mero de escritos de grupo ¨¦tnicos minoritarios que siguen utilizando una lengua propia en la actualidad.
¡°Cada cultura deber¨ªa formar parte de Unicode¡±, se?ala por videollamda Johannes Bergerhausen, profesor de tipograf¨ªa en Universidad de Ciencias Aplicadas de Mainz (Alemania), y cofundador de The Missing Scripts junto a Thomas Huot-Marchand, director del Taller Nacional de Investigaci¨®n Tipogr¨¢fica (ANRT) en Nancy, Francia. El proyecto nace de una alianza entre sus respectivos centros de estudios y el Script Encoding Initiative de la Universidad de California, Berkeley. The Missing Scripts adem¨¢s recibi¨® el patrocionio de la UNESCO en el contexto de la D¨¦cada de las Lenguas Ind¨ªgenas (2022-2032).
Para la UNESCO, la ¡°negligencia de la industria digital¡± hacia los idiomas minoritarios representa una ¡°amenaza de extinci¨®n¡±. Por esto, considera la digitalizaci¨®n y la presencia en la web como ¡°herramientas de empoderamiento¡±. Sin embargo, la relegaci¨®n de lenguas va m¨¢s all¨¢ de solo los grupos minoritarios. Hay casos como el del urdu, el d¨¦cimo idioma con m¨¢s hablantes nativos del mundo (cerca de 80 millones), principalmente ubicados en Pakist¨¢n y la India, que enfrentan dificultades para usar el idioma en un teclado de ordenador. Los hablantes nativos deben recurrir a la versi¨®n romanizada mediante la transliteraci¨®n fon¨¦tica. Casos como este ponen en peligro la transmisi¨®n del idioma a futuras generaciones.
¡°Cuando muere el ¨²ltimo hablante de un idioma, perdemos la cultura, perdemos todo el patrimonio. Por eso es realmente importante registrar y que estos idiomas vivan en internet y en el espacio digital para poder difundirlos¡±, explica Huot-Marchand. Los expertos, sin embargo, hacen una aclaraci¨®n importante: no se debe confundir idiomas y sistemas de escritura. Hay alrededor de 7.000 idiomas en el mundo, pero solo 292 sistemas escritura en la historia de la humanidad. The Missing Scipts trabaja exclusivamente en el ¨¢mbito de la lengua escrita.
Un trabajo minucioso
El proyecto es un esfuerzo colectivo que trasciende el trabajo de los tres centros de estudios involucrados. Los fundadores explican que cooperan con expertos en diferentes campos, desde dise?o y tipograf¨ªa hasta ling¨¹¨ªstica. ¡°Pero tambi¨¦n tenemos que trabajar con hablantes nativos, con cient¨ªficos de computaci¨®n, con ingenieros e incluso con empresas¡±, afirma Huot-Marchand, que enfatiza que los resultados del trabajo deben ser abiertos porque es ¡°la ¨²nica forma¡± de hacer una contribuci¨®n. Ambos expertos defienden la importancia de involucrar en el trabajo a hablantes nativos cuando se trata de lenguajes a¨²n vivos.
De acuerdo con Bergerhausen, su expectativa es tener todos los 292 sistemas de escritura en el Unicode para el a?o 2047. El acad¨¦mico, no obstante, admite que el objetivo es ¡°un poco ingenuo¡± porque todos los a?os aparecen ¡°uno o dos¡± sistemas de escritura nuevos. Esto sucede principalmente en ?frica Occidental, seg¨²n explican, ya que muchas lenguas se registraron con el alfabeto latino debido a la colonizaci¨®n europea y cada vez hay m¨¢s comunidades que quieren tener su propio sistema de escritura para expresar sus idiomas.
Al registrar los sistemas, adem¨¢s, surgen dificultades inesperadas. Por ejemplo, el investigador que est¨¢ trabajando con el sistema del idioma Lampung, de la isla del mismo nombre en Indonesia, descubri¨® que esta lengua, que hablan aproximadamente 1,5 millones de personas, tiene una docena de escrituras diferentes. ¡°Entonces tienes la diferencia entre escrituras manuscritas y de tipograf¨ªas. As¨ª que debes decidir sobre la forma de la letra que vas a registrar. Ser¨ªa como decidir en ingl¨¦s o espa?ol cu¨¢l es la letra ¡®A¡¯ o la letra ¡®E¡¯ perfecta que se debe incluir en el Unicode¡±, apunta Huot-Marchand.
En el caso del Lampung, es una lengua viva con hablantes nativos que pueden contribuir a solventar estas cuestiones. Pero en The Missing Scripts tambi¨¦n est¨¢n registrando sistemas de escritura de lenguas muertas que pueden suscitar problemas similares. Noem¨ª Moncunill, profesora de Filolog¨ªa Latina de la Universidad de Barcelona, trabaj¨® con The Missing Scripts para codificar el sistema de escritura paleohisp¨¢nico (utilizado en la pen¨ªnsula ib¨¦rica entre los siglo VII A.C y I D.C).
Este proyecto, sin embargo, muestra las limitaciones del Unicode, seg¨²n explica Moncunill por videollamada: ¡°Registrar en el Unicode se nos quedaba corto, porque nosotros cuando estudiamos los textos hist¨®ricos, escritos a mano, vemos una variaci¨®n de la escritura que tambi¨¦n nos interesa¡±. Por esa raz¨®n, seg¨²n la acad¨¦mica, su equipo emprendi¨® una ¡°doble v¨ªa¡± para crear un alfabeto est¨¢ndar que se codificar¨ªa en Unicode y fuera ¨²til para la divulgaci¨®n, pero registrando por aparte las fuentes que representaran toda la variaci¨®n de la escritura paleohisp¨¢nica.
¡°En investigaci¨®n t¨² necesitas poder expresar toda la variaci¨®n de la escritura. Pero, en cambio, no tener un Unicode tambi¨¦n es problem¨¢tico. Entonces, desde nuestro punto de vista, lo ideal es tener un doble sistema¡±, se?ala Moncunill.
M¨¢s all¨¢ de la escritura
The Missing Scripts plante¨® el ambicioso objetivo de registrar todo lo refrente al ¨¢mbito del lenguaje escrito, pero hay otras iniciativas que tambi¨¦n quieren recuperar los idiomas m¨¢s all¨¢ de la escritura. Uno de estos es el Living Tongues Institute for Endangered Languages, en Estados Unidos, que adem¨¢s de publicar trabajos cient¨ªficos, elabora diccionarios multimedia en l¨ªnea para preservar los idiomas ind¨ªgenas en colaboraci¨®n con miembros de la comunidades que los hablan.
Fundado en 2005, este proyecto organiza talleres para capacitar a ¡°activistas ling¨¹¨ªsticos¡± sobre c¨®mo grabar y editar frases en su idioma para registrarlos en sus ¡°Living Dictionaries¡± (diccionarios vivos) que contienen decenas de miles de palabras, im¨¢genes y audios de lenguas de todo el mundo.
Recent fieldwork recording #Santali speakers with near Tezpur, Assam, India, using the new #MoveMic. We visited the communities of Barbil Pathar Gaon, Patia Pukhuri & Simalu Guri Gaon. Thanks to all the Santali community members who collaborated with us, @shure & @MeetTheMonks pic.twitter.com/My4iQcqsV2
— Living Tongues Institute for Endangered Languages (@livingtongues) March 11, 2024
¡°Aunque hay muchos acad¨¦micos trabajando con lenguas en peligro, no siempre tienen el tiempo para realmente hacer un trabajo profundo con las comunidades. As¨ª que esa es una de las principales razones detr¨¢s nuestra organizaci¨®n: no solo sumergirnos en el lado cient¨ªfico, sino tambi¨¦n intentar crear recursos que puedan ser ¨²tiles para las comunidades¡±, explica por videollamada Anna Luisa Daigneault, directora de programas para Norteam¨¦rica y Sudam¨¦rica de The Living Tongues Institute for Endangered Languages.
De acuerdo con Daigneault, este m¨¦todo de trabajo evita ¡°malinterpretaciones culturales¡± y ayuda a que el resultado sea ¡°m¨¢s aut¨¦ntico y ling¨¹¨ªsticamente rico¡±. El trabajo de la organizaci¨®n incluye desde proyectos con la comunidad de habla bretona en el norte de Francia hasta comunidades ind¨ªgenas en Bolivia y colaboraciones con hablantes de lenguas minoritarias de la India.
La experta hace hincapi¨¦ en que el trabajo est¨¢ siempre respaldado de ¡°una documentaci¨®n rigurosa, bien realizada y exhaustiva¡± a la que luego se le da un uso pr¨¢ctico creando, adem¨¢s de los diccionarios, cursos en l¨ªnea, libros o incluso subt¨ªtulos para pel¨ªculas. ¡°Es algo tangible que podemos llevar al mundo¡±, expresa Daigneault.
Actualmente la plataforma en l¨ªnea de los diccionarios multimedia tiene unos 1.000 usuarios ¡°dispersos por todo el mundo¡± y cuenta con m¨¢s de 400 idiomas. Para finales de este a?o, Daigneault espera tener ¡°m¨¢s de 500¡å.
Recientemente, Living Tongues Institute for Endangered Languages ha estado realizando talleres en la Amazon¨ªa brasile?a con la comunidad Werikyana, quienes est¨¢n creando sus propios diccionarios multimedia. ¡°Nuestros colaboradores de Werikyana recopilan listas de palabras y frases y las discuten en grupo antes de agregarlas al diccionario digital. Los hablantes nativos luego graban sus propias voces usando sus dispositivos y las suben al diccionario¡±, detalla Daigneault.
La experta destaca la importancia de la parte multimedia en casos en los que no hay un sistema de escritura est¨¢ndar y existen varias escrituras ¡°en competencia¡±, raz¨®n por la cual la plataforma ofrece el espacio para m¨²ltiples sistemas de escritura para un mismo idioma con apoyo visual y auditivo.
Aprendizaje generacional
Seg¨²n la UNESCO, cada dos semanas muere un idioma ind¨ªgena. ¡°La definici¨®n de peligro tiene varios factores, y el m¨¢s importante es si un idioma se est¨¢ transmitiendo o no a los j¨®venes y a los ni?os. Un idioma puede tener un mill¨®n de hablantes, pero si no se est¨¢ transmitiendo a los ni?os, entonces todav¨ªa se considera en peligro¡±, explica Daniel Kaufman, fundador de The Endangered Languages Project, una organizaci¨®n sin fines de lucro que trabaja con comunidades ind¨ªgenas y migrantes de todo el mundo para ¡°documentar, describir y promover sus idiomas¡±.
Desde Nueva York, esta ONG act¨²a como un ¡°centro colaborativo¡± dedicado a fortalecer los idiomas en peligro de desaparici¨®n. En el sito web, los colaboradores cargan muestras de idiomas en formato de texto, audio o v¨ªdeo en el sistema. Tambi¨¦n organizan actividades culturales y educativas que sirven para divulgar el trabajo con las distintas lenguas. ¡°No estamos tratando de crear un museo del lenguaje o un archivo que la gente pueda mirar, el n¨²cleo es llevar el idioma a los ni?os de alguna manera. Y eso es algo que todav¨ªa estamos trabajando y expandiendo¡±, afirma Kaufman.
Seg¨²n el experto, como la mayor¨ªa de la lenguas del mundo son solo orales, hay muchas personas con las que trabajan que no tienen experiencia escribiendo y es necesario recurrir a otras t¨¦cnicas: ¡°Escribir o hacer un blog no es nuestra primera prioridad porque muy pocos se sienten c¨®modos con eso. Para ellos, no es realmente as¨ª como crecieron con el idioma¡±. Por esa raz¨®n, Kaufman destaca la importancia de dotar a las comunidades de las herramientas para que registren y propaguen su lengua de la forma en que se sientan m¨¢s c¨®modos. Todo para que el mundo digital sea poco a poco un reflejo m¨¢s preciso de la diversidad ling¨¹¨ªstica del mundo real.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.