Menos hamburguesas y m��s paellas: as�� ser�� el ChatGPT espa?ol anunciado por Pedro S��nchez

El Gobierno impulsa un modelo de inteligencia artificial entrenado en las lenguas oficiales que permita a organismos del pa��s crear sus propios ��chatbots��

Intervenci��n del presidente del Gobierno, Pedro S��nchez, durante la cena oficial del Mobile Wolrd Congress (MWC), donde anunci�� el proyecto de modelo fundacional de IA en espa?ol y lenguas cooficiales.Albert Garcia

Jordi P��rez Colom��

01 mar 2024 - 05:20CET

ChatGPT, Gemini, Copilot y otras aplicaciones basadas en inteligencia artificial y creadas por grandes empresas funcionan bien en espa?ol. Este domingo, sin embargo, el presidente Pedro S��nchez anunci�� en Barcelona que su Gobierno iba a colaborar para construir ��un gran modelo fundacional de lenguaje de inteligencia artificial entrenado en castellano y las lenguas cooficiales, en c��digo abierto y transparente��. ?Qu�� novedades y beneficios aporta esta iniciativa? Seg��n fuentes del Gobierno, est��n por ahora solo ��en la fase del anuncio del proyecto��: los detalles sobre el personal y la financiaci��n con los que contar�� el plan se podr��n saber ��pr��ximamente��, sin concretar la fecha.

EL PA?S ha consultado cu��les ser��n los detalles del proyecto con las organizaciones que figuran como colaboradoras en el anuncio de S��nchez, y tambi��n con expertos que han participado en proyectos similares en Espa?a. Estas son algunas de las caracter��sticas que tendr�� este modelo fundacional de inteligencia artificial (IA) hecho en Espa?a.

1. No ser�� un ��chatbot�� general

Un modelo ��fundacional�� no significa que sea un chatbot general como ChatGPT, que requiere una labor larga y cara con humanos aportando miles de instrucciones. As�� que no se le podr�� preguntar de todo, ni tendr�� una p��gina donde el p��blico pueda acceder. Ser�� un modelo b��sico de IA para que empresas y administraciones lo entrenen para sus necesidades espec��ficas.

��Este es el problema fundamental��, dice Pep Martorell, director adjunto del Barcelona Supercomputing Center (BSC), instituci��n que S��nchez design�� como uno de los responsables del proyecto. ��Si la administraci��n quiere crear un chatbot para atenci��n primaria, por ejemplo, ?c��mo lo har��a? ?Sobre OpenAI? Eso tiene muchos problemas, de licencias, de sesgo, de cierre de datos, de lengua��, a?ade Martorell.

El modelo fundacional son los cimientos sobre los que cada organizaci��n har�� su ��casa�� con IA. Es m��s f��cil que el creador de esos cimientos sea un organismo p��blico cercano, m��s obligado con la transparencia, que una empresa de Silicon Valley: ��Una empresa dif��cilmente tirar�� de ChatGPT para seg��n qu�� tareas porque alucina��, dice Marta Villegas, l��der de Tecnolog��as del Lenguaje en el BSC, en referencia a los errores escandalosos en sus respuestas. ��Hay situaciones para las que no necesitas tanto y hay mucha demanda de modelos para adaptar a un negocio concreto y lo reentrenen para que responda a preguntas sobre una marca de coches, un servicio p��blico (c��mo pagar el IBI, por ejemplo)��, a?ade.

2. No ser�� f��cil de hacer

El BSC y su reci��n estrenado supercomputador MareNostrum 5 son una pieza b��sica para crear este modelo. Sin una capacidad de computaci��n enorme es imposible ense?ar a una IA a escribir. En un pa��s como Espa?a, sin el impulso p��blico de varias administraciones, no ser��a posible siquiera intentar crear algo as��: ��Es algo que ya vemos en varios pa��ses europeos, desde el sector p��blico se promueve que los modelos se generen aprovechando los recursos de los grandes centros de investigaci��n��, dice Martorell.

Hay adem��s un segundo problema: en Espa?a solo un pu?ado de grupos son capaces de programar un modelo de este tipo. Todos est��n en centros de investigaci��n o universidades: ��Somos un pu?ado de gente capaz de hacer esto��, dice Germ��n Rigau, director adjunto de HiTZ (Centro Vasco de Investigaci��n de Tecnolog��as del Lenguaje), pioneros en Espa?a. ��Dentro de la IA es algo que no todos saben hacer. Solo unos centros lo hacemos y evaluamos��, desarrolla. El HiTZ acaba de presentar el mayor modelo de lenguaje hecho en Espa?a, que es en euskera y basado en Llama, de Meta, que es de c��digo abierto. Adem��s, es dif��cil mantener el talento: ��Motivamos a los j��venes dici��ndoles que esto es un centro de referencia, pero muchos igualmente se van a Google, Amazon, Cohere o montan sus empresas��, a?ade.

Todo esto no implica necesariamente que este esfuerzo conjunto vaya a producir un modelo de ��ltima generaci��n. Es m��s probable que sea de una generaci��n anterior: ��Es factible pensar que antes de que acabe 2024 tendremos un modelo GPT-3 en castellano y el resto de lenguas cooficiales disponibles para empresas��, dice Martorell. ?Y para cu��ndo GPT-4, que es el est��ndar ahora para ChatGPT? ��Tan pronto como se pueda en funci��n de los datos que recojamos y la capacidad del MareNostrum 5 nos permita��, a?ade.

3. Mucho b��isbol, menos f��tbol

Modelos como ChatGPT ya son multiling��es: tiene poco sentido no a?adir lenguas al entrenarlos, cuando las aprenden y las usan para traducir. Pero una lengua no son solo sus palabras, tambi��n es el contexto y la cultura. Ah�� caben un mont��n de variables: tradici��n, ocio, cocina, deportes. Todo ese contexto no es solo la cultura, tambi��n el significado de refranes o giros idiom��ticos que solo tienen sentido en una lengua, que son intraducibles.

Con el espa?ol, una lengua muy representada en internet, es relativamente f��cil conseguir una buena calidad. Incluso con el catal��n. Pero los millones de textos (llamados ��corpus��) que se usan para entrenar el gallego o el euskera son mucho m��s peque?os, explica Rigau: ��En euskera tenemos 4.000 millones de tokens [peque?os bloques de texto que usan las m��quinas para entender el lenguaje]. El catal��n tendr�� unos 20.000 millones, cinco veces m��s. El espa?ol tendr�� 250.000, diez veces m��s que el catal��n. Es todo lo que hemos podido enganchar. Por mucho que rasquemos, la escala es esta��.

Un objetivo de este modelo fundacional es lograr un corpus mejor en las cuatro lenguas cooficiales. Cada instituci��n intenta cerrar acuerdos con organismos que han creado textos en sus lenguas, desde parlamentos auton��micos a televisiones: ��Para nuestras lenguas hemos hecho una b��squeda m��s curada de contenidos y un esfuerzo para reunir datos no conflictivos: la Wikipedia, claro, pero tambi��n datos de parlamentos auton��micos, de TV3, Dialnet o el CSIC nos han permitido recoger revistas en abierto, tambi��n datos de Fundaci��n Elcano y me dejo muchos. Para el catal��n, por ejemplo, tenemos datos de ?mnium, Vilaweb, cada grupo hace un esfuerzo dentro de su lengua para conseguir datos curados��, afirma Villegas. Con el gallego y el euskera se ha hecho una labor similar.

Todo este esfuerzo no estar��a solo destinado a que el modelo responda en un gallego m��s correcto, sino a que sepa mejor de qu�� habla cuando se refiere a asuntos locales: ��Un modelo de una gran empresa sabr�� mucho de la Superbowl y ser�� muy angloc��ntrico��, dice Villegas. ��No es solo desde el punto de vista de la lengua, sino del conocimiento impl��cito, del modelo del mundo��, a?ade. El modelo espa?ol debe tener menos b��isbol y hamburguesas y m��s f��tbol y paellas.

Cuando se cuenta con un mayor corpus en una lengua, tiene m��s informaci��n del mundo complejo que se describe en ese idioma. Por eso, cuando se trata de analizar expedientes cl��nicos escritos por m��dicos o sentencias jur��dicas, es indispensable que est��n entrenados y sintonizados con la lengua y contenido locales o perder��an demasiados matices.

4. Es una apuesta estrat��gica

Junto a las necesidades ling��sticas y culturales de un pa��s como Espa?a, est�� el intento de hacer una apuesta tecnol��gica. ��No es solo una cuesti��n sentimental, hist��rica o cultural��, dice Sen��n Barro, catedr��tico de la Universidad de Santiago de Compostela y director de su Centro Singular de Investigaci��n en Tecnolox��as Intelixentes. ��Es estrat��gica. Si somos capaces de crear una industria potente en Espa?a de empresas en tecnolog��as ling��sticas, no solo podr��n trabajar para el autoconsumo sino para el mundo, por ejemplo, en pa��ses multiling��es como este. Es un mercado brutal. Se estima que al final de la d��cada la econom��a en torno a las tecnolog��as ling��sticas puede rondar los 100.000 millones. Es una cantidad enorme��, a?ade.

Ser��a raro que muchos de los datos m��dicos o legales que necesitan usar administraciones o empresas espa?olas estuvieran a disposici��n de tecnolog��a estadounidense o china. ��Debe ser tambi��n por soberan��a, se trata de dar tejido a la industria��, dice Rigau. ��?Dependeremos siempre de fuera? Hay muchos datos sensibles��.

5. El problema del copyright persiste

La dificultad inicial de entrenar un modelo as�� es lograr miles de millones de textos. El lugar m��s obvio es la web. La organizaci��n Common Crawl recoge peri��dicamente todo lo que hay en internet. Su objetivo es loable, que ese material est�� accesible para todos, no solo las grandes tecnol��gicas: ��Peque?as empresas o incluso individuos pueden acceder a datos de rastreo de alta calidad que antes solo estaban disponibles para las grandes corporaciones��, dicen en su p��gina. De ah�� saldr��n tambi��n los datos para este modelo hecho desde Espa?a.

En los archivos de Common Crawl est�� toda la web: tambi��n gr��ficos, pornograf��a, memes absurdos y, con toda probabilidad, material bajo copyright, con derechos. Los encargados del modelo limpian al entrenarlo todas las referencias sesgadas, t��xicas o lascivas, pero el material con derechos es m��s delicado: ��Eso de que no haya problemas de copyright es complicado. Cogemos descargas de Common Crawl, que en EE UU est�� permitido bajo el amparo del fair use��, dice Villegas. Ese ��uso justo�� permite usar material con derechos para unos supuestos determinados, como educaci��n, citar en informaciones o academia. Su uso para entrenar modelos de IA est�� a��n en disputa legal.

��Estos modelos no hacen copias��, explica Rigau. ��Es algo muy complejo, es como si una persona leyera mucho, 20 millones de libros. ?Qu�� recuerdas de ellos? Esto es lo mismo. Lee, no copia. La memoria de la m��quina tampoco es tan buena: se inventa cosas, la imagina. Si le dices el principio de El Quijote no sabr�� seguir. Sabr�� cosas, recordar�� canciones como cualquier persona. Memoriza algo, pero no genera una obra completa de nada��, asegura.

Puedes seguir a EL PA?S Tecnolog��a en Facebook y X o apuntarte aqu�� para recibir nuestra newsletter semanal.

Tu suscripci��n se est�� usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci��n?

A?adir usuario Continuar leyendo aqu��

Si contin��as leyendo en este dispositivo, no se podr�� leer en el otro.

?Por qu�� est��s viendo esto?

Flecha

Tu suscripci��n se est�� usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci��n a la modalidad Premium, as�� podr��s a?adir otro usuario. Cada uno acceder�� con su propia cuenta de email, lo que os permitir�� personalizar vuestra experiencia en EL PA?S.

En el caso de no saber qui��n est�� usando tu cuenta, te recomendamos cambiar tu contrase?a aqu��.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar�� en tu dispositivo y en el de la otra persona que est�� usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu�� los t��rminos y condiciones de la suscripci��n digital.

Sobre la firma

Jordi P��rez Colom��

Es reportero de Tecnolog��a, preocupado por las consecuencias sociales que provoca internet. Escribe cada semana una newsletter sobre los jaleos que provocan estos cambios. Fue premio Jos�� Manuel Porquet 2012 e iRedes Letras Enredadas 2014. Ha dado y da clases en cinco universidades espa?olas. Entre otros estudios, es fil��logo italiano.