Menos hamburguesas y m¨¢s paellas: as¨ª ser¨¢ el ChatGPT espa?ol anunciado por Pedro S¨¢nchez
El Gobierno impulsa un modelo de inteligencia artificial entrenado en las lenguas oficiales que permita a organismos del pa¨ªs crear sus propios ¡®chatbots¡¯
ChatGPT, Gemini, Copilot y otras aplicaciones basadas en inteligencia artificial y creadas por grandes empresas funcionan bien en espa?ol. Este domingo, sin embargo, el presidente Pedro S¨¢nchez anunci¨® en Barcelona ...
ChatGPT, Gemini, Copilot y otras aplicaciones basadas en inteligencia artificial y creadas por grandes empresas funcionan bien en espa?ol. Este domingo, sin embargo, el presidente Pedro S¨¢nchez anunci¨® en Barcelona que su Gobierno iba a colaborar para construir ¡°un gran modelo fundacional de lenguaje de inteligencia artificial entrenado en castellano y las lenguas cooficiales, en c¨®digo abierto y transparente¡±. ?Qu¨¦ novedades y beneficios aporta esta iniciativa? Seg¨²n fuentes del Gobierno, est¨¢n por ahora solo ¡°en la fase del anuncio del proyecto¡°: los detalles sobre el personal y la financiaci¨®n con los que contar¨¢ el plan se podr¨¢n saber ¡°pr¨®ximamente¡±, sin concretar la fecha.
EL PA?S ha consultado cu¨¢les ser¨¢n los detalles del proyecto con las organizaciones que figuran como colaboradoras en el anuncio de S¨¢nchez, y tambi¨¦n con expertos que han participado en proyectos similares en Espa?a. Estas son algunas de las caracter¨ªsticas que tendr¨¢ este modelo fundacional de inteligencia artificial (IA) hecho en Espa?a.
1. No ser¨¢ un ¡®chatbot¡¯ general
Un modelo ¡°fundacional¡± no significa que sea un chatbot general como ChatGPT, que requiere una labor larga y cara con humanos aportando miles de instrucciones. As¨ª que no se le podr¨¢ preguntar de todo, ni tendr¨¢ una p¨¢gina donde el p¨²blico pueda acceder. Ser¨¢ un modelo b¨¢sico de IA para que empresas y administraciones lo entrenen para sus necesidades espec¨ªficas.
¡°Este es el problema fundamental¡±, dice Pep Martorell, director adjunto del Barcelona Supercomputing Center (BSC), instituci¨®n que S¨¢nchez design¨® como uno de los responsables del proyecto. ¡°Si la administraci¨®n quiere crear un chatbot para atenci¨®n primaria, por ejemplo, ?c¨®mo lo har¨ªa? ?Sobre OpenAI? Eso tiene muchos problemas, de licencias, de sesgo, de cierre de datos, de lengua¡±, a?ade Martorell.
El modelo fundacional son los cimientos sobre los que cada organizaci¨®n har¨¢ su ¡°casa¡± con IA. Es m¨¢s f¨¢cil que el creador de esos cimientos sea un organismo p¨²blico cercano, m¨¢s obligado con la transparencia, que una empresa de Silicon Valley: ¡°Una empresa dif¨ªcilmente tirar¨¢ de ChatGPT para seg¨²n qu¨¦ tareas porque alucina¡±, dice Marta Villegas, l¨ªder de Tecnolog¨ªas del Lenguaje en el BSC, en referencia a los errores escandalosos en sus respuestas. ¡°Hay situaciones para las que no necesitas tanto y hay mucha demanda de modelos para adaptar a un negocio concreto y lo reentrenen para que responda a preguntas sobre una marca de coches, un servicio p¨²blico (c¨®mo pagar el IBI, por ejemplo)¡±, a?ade.
2. No ser¨¢ f¨¢cil de hacer
El BSC y su reci¨¦n estrenado supercomputador MareNostrum 5 son una pieza b¨¢sica para crear este modelo. Sin una capacidad de computaci¨®n enorme es imposible ense?ar a una IA a escribir. En un pa¨ªs como Espa?a, sin el impulso p¨²blico de varias administraciones, no ser¨ªa posible siquiera intentar crear algo as¨ª: ¡°Es algo que ya vemos en varios pa¨ªses europeos, desde el sector p¨²blico se promueve que los modelos se generen aprovechando los recursos de los grandes centros de investigaci¨®n¡±, dice Martorell.
Hay adem¨¢s un segundo problema: en Espa?a solo un pu?ado de grupos son capaces de programar un modelo de este tipo. Todos est¨¢n en centros de investigaci¨®n o universidades: ¡°Somos un pu?ado de gente capaz de hacer esto¡±, dice Germ¨¢n Rigau, director adjunto de HiTZ (Centro Vasco de Investigaci¨®n de Tecnolog¨ªas del Lenguaje), pioneros en Espa?a. ¡°Dentro de la IA es algo que no todos saben hacer. Solo unos centros lo hacemos y evaluamos¡±, desarrolla. El HiTZ acaba de presentar el mayor modelo de lenguaje hecho en Espa?a, que es en euskera y basado en Llama, de Meta, que es de c¨®digo abierto. Adem¨¢s, es dif¨ªcil mantener el talento: ¡°Motivamos a los j¨®venes dici¨¦ndoles que esto es un centro de referencia, pero muchos igualmente se van a Google, Amazon, Cohere o montan sus empresas¡±, a?ade.
Todo esto no implica necesariamente que este esfuerzo conjunto vaya a producir un modelo de ¨²ltima generaci¨®n. Es m¨¢s probable que sea de una generaci¨®n anterior: ¡°Es factible pensar que antes de que acabe 2024 tendremos un modelo GPT-3 en castellano y el resto de lenguas cooficiales disponibles para empresas¡±, dice Martorell. ?Y para cu¨¢ndo GPT-4, que es el est¨¢ndar ahora para ChatGPT? ¡°Tan pronto como se pueda en funci¨®n de los datos que recojamos y la capacidad del MareNostrum 5 nos permita¡±, a?ade.
3. Mucho b¨¦isbol, menos f¨²tbol
Modelos como ChatGPT ya son multiling¨¹es: tiene poco sentido no a?adir lenguas al entrenarlos, cuando las aprenden y las usan para traducir. Pero una lengua no son solo sus palabras, tambi¨¦n es el contexto y la cultura. Ah¨ª caben un mont¨®n de variables: tradici¨®n, ocio, cocina, deportes. Todo ese contexto no es solo la cultura, tambi¨¦n el significado de refranes o giros idiom¨¢ticos que solo tienen sentido en una lengua, que son intraducibles.
Con el espa?ol, una lengua muy representada en internet, es relativamente f¨¢cil conseguir una buena calidad. Incluso con el catal¨¢n. Pero los millones de textos (llamados ¡°corpus¡±) que se usan para entrenar el gallego o el euskera son mucho m¨¢s peque?os, explica Rigau: ¡°En euskera tenemos 4.000 millones de tokens [peque?os bloques de texto que usan las m¨¢quinas para entender el lenguaje]. El catal¨¢n tendr¨¢ unos 20.000 millones, cinco veces m¨¢s. El espa?ol tendr¨¢ 250.000, diez veces m¨¢s que el catal¨¢n. Es todo lo que hemos podido enganchar. Por mucho que rasquemos, la escala es esta¡±.
Un objetivo de este modelo fundacional es lograr un corpus mejor en las cuatro lenguas cooficiales. Cada instituci¨®n intenta cerrar acuerdos con organismos que han creado textos en sus lenguas, desde parlamentos auton¨®micos a televisiones: ¡°Para nuestras lenguas hemos hecho una b¨²squeda m¨¢s curada de contenidos y un esfuerzo para reunir datos no conflictivos: la Wikipedia, claro, pero tambi¨¦n datos de parlamentos auton¨®micos, de TV3, Dialnet o el CSIC nos han permitido recoger revistas en abierto, tambi¨¦n datos de Fundaci¨®n Elcano y me dejo muchos. Para el catal¨¢n, por ejemplo, tenemos datos de ?mnium, Vilaweb, cada grupo hace un esfuerzo dentro de su lengua para conseguir datos curados¡±, afirma Villegas. Con el gallego y el euskera se ha hecho una labor similar.
Todo este esfuerzo no estar¨ªa solo destinado a que el modelo responda en un gallego m¨¢s correcto, sino a que sepa mejor de qu¨¦ habla cuando se refiere a asuntos locales: ¡°Un modelo de una gran empresa sabr¨¢ mucho de la Superbowl y ser¨¢ muy angloc¨¦ntrico¡±, dice Villegas. ¡°No es solo desde el punto de vista de la lengua, sino del conocimiento impl¨ªcito, del modelo del mundo¡±, a?ade. El modelo espa?ol debe tener menos b¨¦isbol y hamburguesas y m¨¢s f¨²tbol y paellas.
Cuando se cuenta con un mayor corpus en una lengua, tiene m¨¢s informaci¨®n del mundo complejo que se describe en ese idioma. Por eso, cuando se trata de analizar expedientes cl¨ªnicos escritos por m¨¦dicos o sentencias jur¨ªdicas, es indispensable que est¨¦n entrenados y sintonizados con la lengua y contenido locales o perder¨ªan demasiados matices.
4. Es una apuesta estrat¨¦gica
Junto a las necesidades ling¨¹¨ªsticas y culturales de un pa¨ªs como Espa?a, est¨¢ el intento de hacer una apuesta tecnol¨®gica. ¡°No es solo una cuesti¨®n sentimental, hist¨®rica o cultural¡±, dice Sen¨¦n Barro, catedr¨¢tico de la Universidad de Santiago de Compostela y director de su Centro Singular de Investigaci¨®n en Tecnolox¨ªas Intelixentes. ¡°Es estrat¨¦gica. Si somos capaces de crear una industria potente en Espa?a de empresas en tecnolog¨ªas ling¨¹¨ªsticas, no solo podr¨¢n trabajar para el autoconsumo sino para el mundo, por ejemplo, en pa¨ªses multiling¨¹es como este. Es un mercado brutal. Se estima que al final de la d¨¦cada la econom¨ªa en torno a las tecnolog¨ªas ling¨¹¨ªsticas puede rondar los 100.000 millones. Es una cantidad enorme¡±, a?ade.
Ser¨ªa raro que muchos de los datos m¨¦dicos o legales que necesitan usar administraciones o empresas espa?olas estuvieran a disposici¨®n de tecnolog¨ªa estadounidense o china. ¡°Debe ser tambi¨¦n por soberan¨ªa, se trata de dar tejido a la industria¡±, dice Rigau. ¡°?Dependeremos siempre de fuera? Hay muchos datos sensibles¡±.
5. El problema del copyright persiste
La dificultad inicial de entrenar un modelo as¨ª es lograr miles de millones de textos. El lugar m¨¢s obvio es la web. La organizaci¨®n Common Crawl recoge peri¨®dicamente todo lo que hay en internet. Su objetivo es loable, que ese material est¨¦ accesible para todos, no solo las grandes tecnol¨®gicas: ¡°Peque?as empresas o incluso individuos pueden acceder a datos de rastreo de alta calidad que antes solo estaban disponibles para las grandes corporaciones¡±, dicen en su p¨¢gina. De ah¨ª saldr¨¢n tambi¨¦n los datos para este modelo hecho desde Espa?a.
En los archivos de Common Crawl est¨¢ toda la web: tambi¨¦n gr¨¢ficos, pornograf¨ªa, memes absurdos y, con toda probabilidad, material bajo copyright, con derechos. Los encargados del modelo limpian al entrenarlo todas las referencias sesgadas, t¨®xicas o lascivas, pero el material con derechos es m¨¢s delicado: ¡°Eso de que no haya problemas de copyright es complicado. Cogemos descargas de Common Crawl, que en EE UU est¨¢ permitido bajo el amparo del fair use¡±, dice Villegas. Ese ¡°uso justo¡± permite usar material con derechos para unos supuestos determinados, como educaci¨®n, citar en informaciones o academia. Su uso para entrenar modelos de IA est¨¢ a¨²n en disputa legal.
¡°Estos modelos no hacen copias¡±, explica Rigau. ¡°Es algo muy complejo, es como si una persona leyera mucho, 20 millones de libros. ?Qu¨¦ recuerdas de ellos? Esto es lo mismo. Lee, no copia. La memoria de la m¨¢quina tampoco es tan buena: se inventa cosas, la imagina. Si le dices el principio de El Quijote no sabr¨¢ seguir. Sabr¨¢ cosas, recordar¨¢ canciones como cualquier persona. Memoriza algo, pero no genera una obra completa de nada¡±, asegura.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.