Latxa, un ChatGPT en euskera contra la brecha digital de los idiomas
El Centro Vasco de Tecnolog¨ªa del Lenguaje crea un chatbot en vasco con el que aspira a contribuir en la democratizaci¨®n de los modelos de lenguaje
ChatGPT dice poder ¡°generar texto coherente y comprensible¡± en unos 25 idiomas. El euskera no est¨¢ en esa lista. Este modelo de lenguaje tiene algo de capacidad para interactuar en vasco, pero carece de la precisi¨®n con la que produce texto en lenguas con miles de millones de hablantes. Parece lejano pensar que est¨¦ entre las prioridades de la empresa OpenAI mejorar las competencias de su modelo para un idioma que hablan unas 800.000 personas en el mundo. Esto alimenta la ¡°brecha digital¡± que existe en este tipo de tecnolog¨ªa, seg¨²n Eneko Agirre, director del Centro Vasco de Tecnolog¨ªa del Lenguaje (HiTZ) de la Universidad del Pa¨ªs Vasco (UPV). Por esta raz¨®n, el grupo de especialistas que dirige est¨¢ trabajando en un chatbot propio del euskera, que han bautizado Latxa y ya supera al GPT-3.5 ¡°en todas las evaluaciones¡±. Pero no se quedan ah¨ª: ¡°Seremos los primeros en crear un modelo tan bueno como el GPT-4¡å.
Agirre, de 56 a?os, ha dedicado toda su trayectoria profesional como inform¨¢tico al procesamiento de lenguajes. A sus 21 a?os, mientras cursaba el grado en la UPV, obtuvo una beca para trabajar en el primer analizador para el euskera. ¡°Es un tema muy atractivo si tienes inquietudes intelectuales sobre c¨®mo funciona el pensamiento, el habla, los idiomas, c¨®mo es que hay tantas lenguas distintas y c¨®mo informatizar el lenguaje¡±, explica por videollamada.
Desde 2020 este inform¨¢tico dirige el HiTZ, un centro que tiene el objetivo de promover la investigaci¨®n, la formaci¨®n, la transferencia tecnol¨®gica y la innovaci¨®n en inteligencia artificial centrada en el lenguaje y el habla. El equipo multidisciplinar est¨¢ compuesto tanto por inform¨¢ticos como por ling¨¹istas e ingenieros. El proyecto para crear Latxa naci¨® a partir de la preocupaci¨®n de que los idiomas como el euskera carecen de las suficientes herramientas digitales que s¨ª poseen las lenguas mayoritarias.
¡°Hay 1.000 veces m¨¢s datos para el ingl¨¦s que para el euskera y 100 veces m¨¢s para el castellano que para el euskera. Nos preocupaba que para este idioma no existieran herramientas para que la gente usara, porque esto puede hacer que la brecha digital aumente entre los idiomas m¨¢s grandes y los m¨¢s peque?os¡±, se?ala el director del HiTZ. Agirre afirma que ChatGPT funciona ¡°peor¡± cuanto m¨¢s peque?o sea el idioma. En el caso del euskera, asegura, aunque puede generar texto, ¡°siempre hay errores gramaticales¡±.
Latxa fue bautizado con ese nombre porque est¨¢ inspirado en el modelo LlaMA de la empresa Meta. Agirre cuenta que, por un lado, no quer¨ªan esconder que se inspiraban en LLaMA, y que como este nombre recuerda al animal, lo asociaron con la lana de las ovejas latxa del Pa¨ªs Vasco.
Alimentar con texto
Para crear un sistema como Latxa, explica Agirre, se necesitan tres elementos. Primero, un equipo de ¡°investigadores e ingenieros punteros¡±, porque ¡°no hay mucha gente en el mundo que lo pueda hacer¡±. Lo segundo es que hace falta texto. Cuanto m¨¢s texto consuma el modelo, mejor calidad tendr¨¢n los resultados. Y, por ¨²ltimo, supercomputaci¨®n, porque procesar todos estos textos solos se puede hacer con esta tecnolog¨ªa. Para Latxa, en el HiTZ consiguieron acceder al supercomputador LEONARDO, ubicado en el Tecnopolo de Bolonia (Italia).
Con respecto al algoritmo, Agirre apunta que se trata del mismo que usan todos los modelos de lenguaje. Con este algoritmo hay que llevar a cabo un proceso para que ¡°aprenda sobre el mundo¡±, que consiste a aportarle textos para que procese la informaci¨®n y aprenda a hacer conexiones entre palabras. ¡°Entonces, el algoritmo lo que aprende es qu¨¦ palabras son las m¨¢s probables para una combinaci¨®n de cualquier texto. Parece poco, pero tiene que aprender mucho sobre gram¨¢tica, sobre morfolog¨ªa y sobre el mundo¡±, se?ala el inform¨¢tico.
De acuerdo con Agirre, ¡°casi todo¡± lo que sabe hacer ChatGPT lo ha aprendido con este proceso de leer y aprender el sentido com¨²n, que es el primer gran paso. Y el m¨¢s costoso, ya que seg¨²n el experto requiere millones de d¨®lares. En el caso del HiTZ, obtuvieron recursos del Gobierno Vasco y de los Fondos Europeos de Recuperaci¨®n para desarrollar este proyecto.
Una vez que el sistema puede comprender el lenguaje, Agirre explica que lo que sigue es ¡°ense?arle a interactuar con los usuarios¡±, un proceso amplio que contempla desde no decir ¡°malas palabras¡±, a que no explique ¡°c¨®mo hacer una bomba o c¨®mo matar a tu suegro¡±.
¡°El rendimiento [calidad] de un chatbot basado en modelos de lenguaje de gran tama?o para un idioma depende en gran medida en la cantidad de textos de ese idioma, con lo que casi todos los idiomas tienen una perdida respecto al ingl¨¦s¡±, explica Agirre sobre los posibles errores que puede cometer Latxa. ¡°Se sabe que cuanto menos textos menor rendimiento, pero no se conoce con certeza los detalles de este fen¨®meno, y es un tema muy activo de investigaci¨®n, por las repercusiones pr¨¢cticas que tiene. Nosotros tambi¨¦n estamos en ello¡±, a?ade.
La carrera de los modelos de lenguaje
El ministro de Transormaci¨®n Digital y de la Funci¨®n P¨²blica, Jos¨¦ Luis Escriv¨¢, present¨® en mayo una iniciativa del Gobierno para impulsar la puesta en marcha de un modelo de lenguaje en castellano y lenguas cooficiales. Escriv¨¢ y el ministro de Cultura, Ernest Urtasun, presidieron adem¨¢s el primer encuentro de las instituciones implicadas en el Convenio de Gobernanza para Generar Modelos y Corpus para una infraestructura p¨²blica de Modelos de Lenguaje. Desde que comenz¨® la nueva revoluci¨®n de la inteligencia artificial generativa, en la Uni¨®n Europea ha surgido preocupaci¨®n por no quedarse rezagados en el desarrollo y regulaci¨®n de esta tecnolog¨ªa.
¡°La tecnolog¨ªa en s¨ª es un fin, porque ahora mismo hay una carrera en todo el mundo para dominarla. Si un pa¨ªs no invierte en estos modelos, no va a tener a la gente preparada¡±, explica Agirre. Para el inform¨¢tico, no hay que quedarse de brazos cruzados esperando a que OpenAI desarrolle un buen modelo para el castellano o cualquier otro idioma. El director del HiTZ considera que este poder no debe quedar solo en unas pocas manos y que se deben desarrollar modelos abiertos que puedan usar las compa?¨ªas en Espa?a y de Europa sin tener que depender de Silicon Valley.
Latxa es un ejemplo de lo que puede lograrse localmente si se invierte en modelos de lenguaje. ¡°No solo seremos de los primeros grupos que consigue crear un modelo de lenguaje que sea tan bueno como GPT-4 en competencia ling¨¹¨ªstica, sino que ya somos mejores que GPT-4 en gram¨¢tica de euskera¡±, explica Agirre.
El director del HiTZ tiene claro que el desarrollo de esta tecnolog¨ªa tiene una trascendencia cultural e identitaria: ¡°Al igual que era importante tener prensa, radio, televisi¨®n o educaci¨®n en un idioma, la tecnolog¨ªa tambi¨¦n es importante, porque si no la brecha que hay entre idiomas muy usados y menos usados ir¨¢ aumentando¡±.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.