Por qu¨¦ el espa?ol necesita IAs propias: ¡°ChatGPT tiene los valores de un hombre blanco, universitario y de la costa oeste de EE UU¡±
Dos acad¨¦micas latinoamericanas, la argentina Luciana Benotti y la chilena Jocelyn Dunstan, explican por qu¨¦ son importantes los esfuerzos hispanos para ampliar los modelos de lenguaje disponibles en idiomas distintos al ingl¨¦s
El lanzamiento de ChatGPT en noviembre de 2022 asombr¨® al mundo por lo bien que escrib¨ªa en cualquier lengua. Ese ¨¦xito ocult¨® que un modelo que sabe responder cualquier pregunta esconde m¨¢s valores det¨¢s de esa gram¨¢tica o sintaxis correcta. Con el paso del tiempo aparecen cada vez m¨¢s trabajos que destacan la importancia de entrenar modelos con lenguas y valores distintos: ¡°Necesitamos la infraestructura t¨¦cnica para alentar el entrenamiento de modelos de IA con datos ...
El lanzamiento de ChatGPT en noviembre de 2022 asombr¨® al mundo por lo bien que escrib¨ªa en cualquier lengua. Ese ¨¦xito ocult¨® que un modelo que sabe responder cualquier pregunta esconde m¨¢s valores det¨¢s de esa gram¨¢tica o sintaxis correcta. Con el paso del tiempo aparecen cada vez m¨¢s trabajos que destacan la importancia de entrenar modelos con lenguas y valores distintos: ¡°Necesitamos la infraestructura t¨¦cnica para alentar el entrenamiento de modelos de IA con datos culturales franceses y europeos¡±, dice un informe del gobierno franc¨¦s de marzo, que insiste en que sin IA propia, Europa se arriesga ¡°a perder control del futuro¡±.
No es extra?o que el Gobierno franc¨¦s d¨¦ importancia a los datos culturales. ¡°Cuando uno habla de modelos de espa?ol se refiere a lo ling¨¹¨ªstico, pero los modelos de lenguaje incluyen una posici¨®n geogr¨¢fica, de valores. Los modelos como ChatGPT tienen valores parecidos a los de un hombre de unos 30 a?os, blanco, que fue a la universidad, nacido en la costa oeste de Estados Unidos¡±, dice Luciana Benotti, inform¨¢tica con un doctorado en ling¨¹¨ªstica computacional e investigadora de la Universidad Nacional de C¨®rdoba (Argentina).
Para ampliar este panorama angloc¨¦ntrico, el Gobierno de Espa?a anunci¨® su proyecto de modelo de lenguaje Alia. Al menos un 20% del total de textos con los que se entrene se corresponder¨¢n con lenguas habladas en Espa?a, mientras que ChatGPT y sus competidores no alcanzan el 5% en espa?ol. Eso har¨¢ que su fiabilidad sea mayor para los hispanohablantes, pues se corregir¨¢n problemas t¨ªpicos como los sesgos: el uso del g¨¦nero masculino y el femenino es distinto en castellano respecto al ingl¨¦s, por ejemplo.
El Centro Nacional de Inteligencia Artificial de Chile tambi¨¦n trabaja en ¡°un gran modelo abierto de lenguaje de latinoamericanos para latinoamericanos¡± llamado de momento LLM latino. Aunque la capacidad de computaci¨®n es menor que en el modelo espa?ol, el objetivo es similar, m¨¢s centrado en la regi¨®n. Hay asociaciones de especialistas voluntarios que tambi¨¦n trabajan para lograr mejores corpus y recursos en espa?ol.
El modelo Alia es m¨¢s cercano y ¨²til para los hablantes del espa?ol que los entrenados sobre todo en ingl¨¦s: ¡°Hay una enorme brecha entre la cantidad de recursos y modelos de lenguaje para el ingl¨¦s y para el espa?ol. Apoyarnos como pa¨ªses hispanohablantes nos ayudar¨¢ a avanzar m¨¢s r¨¢pido¡±, dice Dunstan. Pero desde Espa?a la lengua sigue vi¨¦ndose como algo distinto: ¡°La RAE recoge el 80% de palabras de Espa?a y el 20% de Latinoam¨¦rica, es decir, estamos sub-representados¡±, dice Jocelyn Dunstan, investigadora de la Pontificia Universidad Cat¨®lica de Chile.
El peso del espa?ol
Am¨¦rica Latina ha tendido a ver las innovaciones tecnol¨®gicas de lejos. Pero con esta novedad tiene una herramienta b¨¢sica que le cae cerca: el espa?ol. ¡°Aqu¨ª nunca somos el mercado principal. La gente piensa que el poder de ChatGPT es incre¨ªble porque les da por ejemplo un men¨² con calor¨ªas y creen que puede resolver todo¡±, a?ade Dunstan, y cuenta el caso de un proyecto con la lengua rapa nui con ChatGPT, en el que parec¨ªa que lo hablaba, pero era err¨¢tico o se inventaba fonemas.
Un modo de entender la distancia entre lo que ocurre en Estados Unidos y en Am¨¦rica Latina en este sector es la asociaci¨®n que re¨²ne a los acad¨¦micos que se dedican a la ling¨¹¨ªstica computacional. Todos est¨¢n en la NAACL (ling¨¹istas computacionales de Am¨¦rica del Norte, en sus siglas en ingl¨¦s). En el ¨²ltimo encuentro de la NACL hab¨ªa unos 50 investigadores latinoamericanos y otros 50 latinos estadounidenses, entre un total de unos 2.000 participantes.
Esta diferencia abrumadora influye, obviamente, que la lengua m¨¢s analizada en los art¨ªculos cient¨ªficos es el ingl¨¦s. ¡°Cuando un art¨ªculo de procesamiento del lenguaje natural trabaja solo con el espa?ol es muy dif¨ªcil que sea aceptado en una conferencia de primer nivel. Se espera que sea un estudio multiling¨¹e y que incluya ingl¨¦s, italiano, franc¨¦s, y otros. Este requerimiento no se da para el ingl¨¦s, donde las cantidades de texto son adem¨¢s enormes. La gente que trabaja con el ingl¨¦s puede hacerlo solo en ese idioma y nadie reclama¡±, dice Dunstan.
Datos baratos y viejos
Benotti trabaja junto a la Fundaci¨®n V¨ªa Libre y con financiaci¨®n internacional de la Fundaci¨®n Mozilla en explicar c¨®mo funciona los sesgos y riesgos de estos modelos seg¨²n su origen y entrenamiento: ¡°Dado que los modelos son entrenados con grandes vol¨²menes de datos baratos y viejos de internet, a menudo absorben prejuicios existentes. Esto puede llevar a resultados que refuercen estereotipos como ¡®los mapuches son borrachos¡¯ o ¡®las mujeres, a la cocina¡¯. Hay mucho trabajo en nuestra ¨¢rea de investigaci¨®n en reducir estos sesgos y alinear estos modelos desde una perspectiva de valores del norte global¡±, explica esta ling¨¹ista.
Con las variantes del espa?ol en Am¨¦rica Latina, a menudo ocurre que popularmente tienen menos empaque. A algunos les puede parecer raro que un modelo de lenguaje las usara sin tener en cuenta el contexto: ¡°Estamos muy acostumbrados a que el espa?ol est¨¢ndar sea lo que est¨¢ bien, y usar estas palabras m¨¢s regionales est¨¢ mal visto. Usar un lenguaje m¨¢s neutro parece darle mayor autoridad y conocimiento¡±, dice Benotti.
En los ¨²ltimos a?os, la investigaci¨®n sobre c¨®mo responden estos modelos a preguntas de distintos ¨¢mbitos, qu¨¦ tipo de palabras usan o qu¨¦ entienden de los distintos dialectos de una lengua grande o los detalles de lenguas m¨¢s peque?as. Es un trabajo incipiente. Dunstan acaba, por ejemplo, de terminar un art¨ªculo con investigadores del BSC donde han mirado si los modelos desarrollados en Espa?a sirven para el contexto chileno, pero en algo muy espec¨ªfico: el lenguaje oncol¨®gico. Vieron que pod¨ªa usarse, pero con una advertencia: los informes oncol¨®gicos suelen ser m¨¢s escritos con m¨¢s calma que en otras especialidades. ¡°Esto no implica que el texto de urgencias o con abreviaturas funcionar¨¢ igual¡±, dice Dunstan.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.