La larga marcha de un grupo de voluntarios por lograr un ChatGPT hispano: ��Un modelo entrenado en espa?ol ser��a incre��ble��

Mar��a Grandury lanz�� en 2021 SomosNLP, una iniciativa voluntaria para tener m��s recursos en nuestra lengua en inteligencia artificial. Su trayectoria muestra la complejidad de lograr un chatbot nacional

Mar��a Grandury, cient��fica espa?ola que fund�� SomosNLP, en la plaza de San Cayetano, en Madrid.Samuel S��nchez

10 may 2024 - 05:20CEST

��La pregunta es ��dame una receta t��pica de Per��', y entonces te la da��, dice Mar��a Grandury, fundadora de la organizaci��n de voluntarios SomosNLP. Grandury describe una acci��n banal para los nuevos chatbots hechos con inteligencia artificial (IA). Esa simple petici��n incluye, sin embargo, un enorme trabajo previo, la mayor parte automatizado, pero en gran parte tambi��n humano.

Esa pregunta necesita, al menos, tres elementos b��sicos: primero, una base de datos que incluya recetas peruanas en espa?ol, que salen de internet. Segundo, una lista de preguntas y respuestas que permita al modelo aprender qu�� responder cuando le preguntan por una receta peruana. Y tercero, un control que permita revisar la respuesta y decir si es correcta.

Esta sencilla explicaci��n de tres pasos oculta una variedad ingente de opciones, donde la financiaci��n es clave. Las grandes empresas de Silicon Valley y el ingl��s dominan en todo con mucha distancia. ?Qu�� se hace desde otras lenguas? Se intenta, a distintos niveles. El espa?ol deber��a ser una lengua tambi��n dominante, pero en realidad no lo es tanto. El reto de hacer que una m��quina aprenda a responder cualquier pregunta en espa?ol (no un pu?ado, centradas en un solo tema) es enormemente complejo.

El primer paso clave es reunir ingentes cantidades de texto para entrenar lo que se llama un modelo fundacional. ��De mucho texto no tenemos tant��simos, pero s�� que hay m��s en estos ��ltimos tres a?os, ha ido creciendo la comunidad y han surgido iniciativas por parte del Gobierno��, dice Grandury. Se refiere sobre todo a Alia, modelo impulsado por el Gobierno de Espa?a y del que el ministro Jos�� Luis Escriv�� dijo en EL PA?S que ��abrir�� las puertas a una nueva generaci��n de productos tecnol��gicos enriquecidos con el vasto patrimonio ling��stico del castellano y las lenguas cooficiales de Espa?a��.

El modelo es una parte que requiere muchos datos originales pero tambi��n mucha computaci��n. Por eso es indispensable el acuerdo del Gobierno con el Barcelona Super Computing Center y con IBM. Pero con eso solo hay un modelo capaz escribir texto a partir de una frase inicial, no una pregunta. Pero los chats que se han popularizado son precisamente de preguntas y respuestas. Esas instrucciones no existen en espa?ol, al menos p��blicas. Ah�� es donde entra en juego SomosNLP (NLP son las siglas de Procesamiento de Lenguaje Natural en ingl��s), que intenta reunir recursos para que la presencia del espa?ol mejore en la IA: ��De bases de datos con instrucciones solo hay p��blicos los que est��n en ingl��s. Lo que suele hacerse es cogerlos y traducirlos��, dice Grandury. ��Lo que vamos a hacer nosotros es crear seguramente el mayor hasta ahora corpus de instrucciones abierto en espa?ol��, a?ade.

Grandury, de 26 a?os y de Ponferrada, tiene ya experiencia en el espinoso camino de montar un modelo viable en espa?ol. Tras licenciarse en matem��ticas y f��sica en la Universidad de Oviedo y trabajar brevemente en Berl��n, fich�� por Clibrain. En el verano de 2023 Clibrain ��quer��a ser la referencia mundial de la IA en espa?ol�� y su cofundadora, Elena Gonz��lez-Blanco, era ��la referencia mundial de la IA en espa?ol��, seg��n titulares de prensa. Incluso sacaron un modelo con un nombre tan espa?ol como Lince. Hoy Clibrain ha cerrado.

��Lince funcionaba bien, falt�� hacerlo m��s accesible, por ejemplo con una interfaz. Aunque eso tambi��n es costoso, tenerlo disponible para que la gente lo utilice��, dice Grandury, en referencia a la necesidad de computaci��n requerida para que un modelo est�� disponible en internet para ir respondiendo preguntas de usuarios.

Francia ya tiene su l��der

Mientras, Francia s�� ha conseguido con Mistral una empresa nacional que compita a escala global. ��El campe��n de IA de Europa pone su mira en los gigantes tecnol��gicos de EE UU��, titulaba el New York Times en abril. Su presidente ejecutivo, el franc��s de 31 a?os Arthur Mensch, ex empleado de Google, dec��a: ��Estos modelos moldean nuestra comprensi��n cultural del mundo, y los valores de Francia y los valores de Estados Unidos difieren en formas sutiles pero importantes��.

La distancia en financiaci��n sigue siendo enorme: OpenAI ha logrado inversiones por valor de 13.000 millones de d��lares; Mistral, 540 millones. El modelo de Mistral es en ingl��s, pero hay aparentemente un esfuerzo para meter m��s contenido en franc��s: al menos literatura francesa del siglo XIX, que ya no tiene derechos de autor, seg��n el NYTimes.

Grandury coincidi�� con gente de Mistral al poco de lanzar su modelo. ��Ya no contaban mucho, Les pregunt�� s�� hab��an entrenado con texto en franc��s o en espa?ol. ��Puede ser��, me dijeron��, sin aclarar ning��n detalle. ��La gente no habla��, a?ade.

El presidente franc��s, Emmanuel Macron, recibe a Mensch. El presidente espa?ol, Pedro S��nchez, anunci�� el nuevo modelo Alia y se reuni�� con el espa?ol Dar��o Gil, vicepresidente de IBM. A falta de empresas potentes, los espa?oles bien colocados pueden ser de ayuda. Es probable que ayude en Francia que uno de los ��padres de la IA�� sea el franc��s Yann LeCun, cient��fico jefe de IA en Meta.

Hoy me he reunido con Dar��o Gil, vicepresidente de @IBM y director mundial de @IBMResearch.

Hemos acordado colaborar con la multinacional tecnol��gica para desarrollar modelos de lenguaje de IA en espa?ol y lenguas cooficiales, que anunciamos en el ��ltimo MWC.

Espa?a apuesta por�� pic.twitter.com/DwxzSBF3Ad
— Pedro S��nchez (@sanchezcastejon) April 5, 2024

La ventaja del ingl��s es que internet es en ingl��s. El espa?ol y el franc��s deben buscar y negociar con montones de instituciones para alimentar sus modelos, igual que lenguas m��s peque?as como las cooficiales espa?olas o precolombinas en Am��rica Latina.

Somos NLP no tiene capacidad para entrenar esos modelos, pero s�� puede montar esfuerzos voluntarios, como un hackat��n, para ir reuniendo pares de preguntas y respuestas generales. ?Qu�� motiva a cientos de voluntarios a hacer estos esfuerzos por mejorar la IA en espa?ol? ��Te unes a una gran comunidad internacional de personas con tus mismos intereses y sabes que, a la vez que est��s aprendiendo y ganando visibilidad, est��s aportando tu granito de arena a un objetivo com��n: colaborar con la preservaci��n de tu lengua y cultura��, dice Grandury.

Unos 20 equipos de cinco personas crearon en unos d��as 200.000 instrucciones. Es factible crear con c��digo preguntas y respuestas a partir de bases de datos de temas espec��ficos. ��Hay pdfs, webs sobre temas legales o de refugiados en conversaciones en grupos abiertos de Telegram. Cuando tienes un mont��n de datos, puedes crear autom��ticamente pares de preguntas y respuestas sobre ese texto. Despu��s lo mandas a un espacio de anotaci��n y ya humanos, la gente de cada equipo, va revisando para ver si tienen sentido. Es mucho m��s r��pido porque ya no tienes que ir leyendo y buscando una pregunta y su respuesta��, dice Grandury. Los humanos son como profesores de lengua de los chatbots, que les van indicando errores y aciertos y le corrigen para que mejores sus respuestas.

El objetivo de SomosNLP es crear 10 millones de preguntas y respuestas originales en espa?ol. ��Seguir��a siendo un tercio del mayor corpus sint��tico en ingl��s��, dice Grandury. En SomosNLP el trabajo es de momento estrictamente voluntario. Solo algunos patrocinios para sus acciones, como el uso de servidores o premios, procede entre otros de la compa?��a Hugging Face, construida alrededor de una comunidad que trabaja la IA de manera abierta.

? Os presento a este mini avatar con el que queremos explicar de forma did��ctica asuntos importantes en los que trabajamos en @mintradigital

Hoy nos cuenta por qu�� es clave tener un modelo de lenguaje en castellano y lenguas cooficiales como el que estamos preparando: #ALIA ? pic.twitter.com/N5UYMLUyim
— Jos�� Luis Escriv�� (@joseluisescriva) May 7, 2024

Las grandes empresas de Silicon Valley no revelan c��mo hacen este proceso. En enero de 2023 se supo que OpenAI hab��a pagado a miles de trabajadores en Kenia para que anotaran respuestas demasiado t��xicas y el chatbot aprendiera que no deb��a darlas. Pero apenas hay m��s detalles: ��No sabemos hasta qu�� punto automatizan la creaci��n de preguntas��, dice Grandury. ��Despu��s hay mucha parte humana donde nosotros ni de lejos manejamos la misma cantidad de datos. Imaginar cu��ntas personas est��n ah�� anotadas es impensable��.

Meta acaba de sacar su nuevo modelo Llama 3. En un documento titulado Nuestra aproximaci��n responsable a Meta AI y a Meta Llama 3, la compa?��a dedica 3.000 palabras a explicar pasos, a menudo en colaboraci��n con humanos, para que no d�� respuestas pol��ticamente incorrectas. Pero no cuentan c��mo han hecho todo el proceso anterior.

Por qu�� no usar ChatGPT en espa?ol

Una pregunta repetida es por qu�� no usar los modelos que ya existen y que responden bien en espa?ol. Adem��s de las cuestiones estrat��gica, cultural y abierta, es dif��cil que un modelo creado originalmente en ingl��s sepa distinguir variantes dialectales del espa?ol.

��La gracia ser��a no coger un modelo multiling��e y adaptarlo, sino coger uno que est�� entrenado en espa?ol y despu��s adaptarlo con datos en espa?ol, ser��a incre��ble��, dice Grandury. ?C��mo se notar��an las diferencias? ��Hay cosas m��s sutiles en el lenguaje, por ejemplo c��mo se expresa si se tiene un C1 o C2 o si utilizas expresiones coloquiales o m��s elaboradas��.

El objetivo inmediato del modelo impulsado por el Gobierno es dar a empresas y organizaciones algo muy espa?ol para sus necesidades concretas: es sencillo refinar un modelo para que responda solo sobre accidentes laborales en Espa?a, seguros de coche o matriculaci��n en tal universidad. ��La tendencia es ir hacia modelos especializados: uno legal, por ejemplo, para que tambi��n aprenda a hablar m��s con ese tipo de idioma��, dice Grandury.

Aunque un objetivo final es caminar hacia un chat general como ChatGPT, no ser�� un camino sencillo: ��Solos no lo vamos a hacer��, aclara por si acaso.

Puedes seguir a EL PA?S Tecnolog��a en Facebook y X o apuntarte aqu�� para recibir nuestra newsletter semanal.

Tu suscripci��n se est�� usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci��n?

A?adir usuario Continuar leyendo aqu��

Si contin��as leyendo en este dispositivo, no se podr�� leer en el otro.

?Por qu�� est��s viendo esto?

Flecha

Tu suscripci��n se est�� usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci��n a la modalidad Premium, as�� podr��s a?adir otro usuario. Cada uno acceder�� con su propia cuenta de email, lo que os permitir�� personalizar vuestra experiencia en EL PA?S.

?Tienes una suscripci��n de empresa? Accede aqu�� para contratar m��s cuentas.

En el caso de no saber qui��n est�� usando tu cuenta, te recomendamos cambiar tu contrase?a aqu��.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar�� en tu dispositivo y en el de la otra persona que est�� usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu�� los t��rminos y condiciones de la suscripci��n digital.

Sobre la firma

Jordi P��rez Colom��

Es reportero de Tecnolog��a, preocupado por las consecuencias sociales que provoca internet. Escribe cada semana una newsletter sobre los jaleos que provocan estos cambios. Fue premio Jos�� Manuel Porquet 2012 e iRedes Letras Enredadas 2014. Ha dado y da clases en cinco universidades espa?olas. Entre otros estudios, es fil��logo italiano.