Menos hamburguesas y m¨¢s paellas: as¨ª ser¨¢ el ChatGPT espa?ol anunciado por Pedro S¨¢nchez

El Gobierno impulsa un modelo de inteligencia artificial entrenado en las lenguas oficiales que permita a organismos del pa¨ªs crear sus propios ¡®chatbots¡¯

Intervenci¨®n del presidente del Gobierno, Pedro S¨¢nchez, durante la cena oficial del Mobile Wolrd Congress (MWC), donde anunci¨® el proyecto de modelo fundacional de IA en espa?ol y lenguas cooficiales.Albert Garcia

ChatGPT, Gemini, Copilot y otras aplicaciones basadas en inteligencia artificial y creadas por grandes empresas funcionan bien en espa?ol. Este domingo, sin embargo, el presidente Pedro S¨¢nchez anunci¨® en Barcelona ...

Suscr¨ªbete para seguir leyendo

Lee sin l¨ªmites

ChatGPT, Gemini, Copilot y otras aplicaciones basadas en inteligencia artificial y creadas por grandes empresas funcionan bien en espa?ol. Este domingo, sin embargo, el presidente Pedro S¨¢nchez anunci¨® en Barcelona que su Gobierno iba a colaborar para construir ¡°un gran modelo fundacional de lenguaje de inteligencia artificial entrenado en castellano y las lenguas cooficiales, en c¨®digo abierto y transparente¡±. ?Qu¨¦ novedades y beneficios aporta esta iniciativa? Seg¨²n fuentes del Gobierno, est¨¢n por ahora solo ¡°en la fase del anuncio del proyecto¡°: los detalles sobre el personal y la financiaci¨®n con los que contar¨¢ el plan se podr¨¢n saber ¡°pr¨®ximamente¡±, sin concretar la fecha.

EL PA?S ha consultado cu¨¢les ser¨¢n los detalles del proyecto con las organizaciones que figuran como colaboradoras en el anuncio de S¨¢nchez, y tambi¨¦n con expertos que han participado en proyectos similares en Espa?a. Estas son algunas de las caracter¨ªsticas que tendr¨¢ este modelo fundacional de inteligencia artificial (IA) hecho en Espa?a.

1. No ser¨¢ un ¡®chatbot¡¯ general

Un modelo ¡°fundacional¡± no significa que sea un chatbot general como ChatGPT, que requiere una labor larga y cara con humanos aportando miles de instrucciones. As¨ª que no se le podr¨¢ preguntar de todo, ni tendr¨¢ una p¨¢gina donde el p¨²blico pueda acceder. Ser¨¢ un modelo b¨¢sico de IA para que empresas y administraciones lo entrenen para sus necesidades espec¨ªficas.

¡°Este es el problema fundamental¡±, dice Pep Martorell, director adjunto del Barcelona Supercomputing Center (BSC), instituci¨®n que S¨¢nchez design¨® como uno de los responsables del proyecto. ¡°Si la administraci¨®n quiere crear un chatbot para atenci¨®n primaria, por ejemplo, ?c¨®mo lo har¨ªa? ?Sobre OpenAI? Eso tiene muchos problemas, de licencias, de sesgo, de cierre de datos, de lengua¡±, a?ade Martorell.

El modelo fundacional son los cimientos sobre los que cada organizaci¨®n har¨¢ su ¡°casa¡± con IA. Es m¨¢s f¨¢cil que el creador de esos cimientos sea un organismo p¨²blico cercano, m¨¢s obligado con la transparencia, que una empresa de Silicon Valley: ¡°Una empresa dif¨ªcilmente tirar¨¢ de ChatGPT para seg¨²n qu¨¦ tareas porque alucina¡±, dice Marta Villegas, l¨ªder de Tecnolog¨ªas del Lenguaje en el BSC, en referencia a los errores escandalosos en sus respuestas. ¡°Hay situaciones para las que no necesitas tanto y hay mucha demanda de modelos para adaptar a un negocio concreto y lo reentrenen para que responda a preguntas sobre una marca de coches, un servicio p¨²blico (c¨®mo pagar el IBI, por ejemplo)¡±, a?ade.

2. No ser¨¢ f¨¢cil de hacer

El BSC y su reci¨¦n estrenado supercomputador MareNostrum 5 son una pieza b¨¢sica para crear este modelo. Sin una capacidad de computaci¨®n enorme es imposible ense?ar a una IA a escribir. En un pa¨ªs como Espa?a, sin el impulso p¨²blico de varias administraciones, no ser¨ªa posible siquiera intentar crear algo as¨ª: ¡°Es algo que ya vemos en varios pa¨ªses europeos, desde el sector p¨²blico se promueve que los modelos se generen aprovechando los recursos de los grandes centros de investigaci¨®n¡±, dice Martorell.

Hay adem¨¢s un segundo problema: en Espa?a solo un pu?ado de grupos son capaces de programar un modelo de este tipo. Todos est¨¢n en centros de investigaci¨®n o universidades: ¡°Somos un pu?ado de gente capaz de hacer esto¡±, dice Germ¨¢n Rigau, director adjunto de HiTZ (Centro Vasco de Investigaci¨®n de Tecnolog¨ªas del Lenguaje), pioneros en Espa?a. ¡°Dentro de la IA es algo que no todos saben hacer. Solo unos centros lo hacemos y evaluamos¡±, desarrolla. El HiTZ acaba de presentar el mayor modelo de lenguaje hecho en Espa?a, que es en euskera y basado en Llama, de Meta, que es de c¨®digo abierto. Adem¨¢s, es dif¨ªcil mantener el talento: ¡°Motivamos a los j¨®venes dici¨¦ndoles que esto es un centro de referencia, pero muchos igualmente se van a Google, Amazon, Cohere o montan sus empresas¡±, a?ade.

Todo esto no implica necesariamente que este esfuerzo conjunto vaya a producir un modelo de ¨²ltima generaci¨®n. Es m¨¢s probable que sea de una generaci¨®n anterior: ¡°Es factible pensar que antes de que acabe 2024 tendremos un modelo GPT-3 en castellano y el resto de lenguas cooficiales disponibles para empresas¡±, dice Martorell. ?Y para cu¨¢ndo GPT-4, que es el est¨¢ndar ahora para ChatGPT? ¡°Tan pronto como se pueda en funci¨®n de los datos que recojamos y la capacidad del MareNostrum 5 nos permita¡±, a?ade.

3. Mucho b¨¦isbol, menos f¨²tbol

Modelos como ChatGPT ya son multiling¨¹es: tiene poco sentido no a?adir lenguas al entrenarlos, cuando las aprenden y las usan para traducir. Pero una lengua no son solo sus palabras, tambi¨¦n es el contexto y la cultura. Ah¨ª caben un mont¨®n de variables: tradici¨®n, ocio, cocina, deportes. Todo ese contexto no es solo la cultura, tambi¨¦n el significado de refranes o giros idiom¨¢ticos que solo tienen sentido en una lengua, que son intraducibles.

Con el espa?ol, una lengua muy representada en internet, es relativamente f¨¢cil conseguir una buena calidad. Incluso con el catal¨¢n. Pero los millones de textos (llamados ¡°corpus¡±) que se usan para entrenar el gallego o el euskera son mucho m¨¢s peque?os, explica Rigau: ¡°En euskera tenemos 4.000 millones de tokens [peque?os bloques de texto que usan las m¨¢quinas para entender el lenguaje]. El catal¨¢n tendr¨¢ unos 20.000 millones, cinco veces m¨¢s. El espa?ol tendr¨¢ 250.000, diez veces m¨¢s que el catal¨¢n. Es todo lo que hemos podido enganchar. Por mucho que rasquemos, la escala es esta¡±.

Un objetivo de este modelo fundacional es lograr un corpus mejor en las cuatro lenguas cooficiales. Cada instituci¨®n intenta cerrar acuerdos con organismos que han creado textos en sus lenguas, desde parlamentos auton¨®micos a televisiones: ¡°Para nuestras lenguas hemos hecho una b¨²squeda m¨¢s curada de contenidos y un esfuerzo para reunir datos no conflictivos: la Wikipedia, claro, pero tambi¨¦n datos de parlamentos auton¨®micos, de TV3, Dialnet o el CSIC nos han permitido recoger revistas en abierto, tambi¨¦n datos de Fundaci¨®n Elcano y me dejo muchos. Para el catal¨¢n, por ejemplo, tenemos datos de ?mnium, Vilaweb, cada grupo hace un esfuerzo dentro de su lengua para conseguir datos curados¡±, afirma Villegas. Con el gallego y el euskera se ha hecho una labor similar.

Todo este esfuerzo no estar¨ªa solo destinado a que el modelo responda en un gallego m¨¢s correcto, sino a que sepa mejor de qu¨¦ habla cuando se refiere a asuntos locales: ¡°Un modelo de una gran empresa sabr¨¢ mucho de la Superbowl y ser¨¢ muy angloc¨¦ntrico¡±, dice Villegas. ¡°No es solo desde el punto de vista de la lengua, sino del conocimiento impl¨ªcito, del modelo del mundo¡±, a?ade. El modelo espa?ol debe tener menos b¨¦isbol y hamburguesas y m¨¢s f¨²tbol y paellas.

Cuando se cuenta con un mayor corpus en una lengua, tiene m¨¢s informaci¨®n del mundo complejo que se describe en ese idioma. Por eso, cuando se trata de analizar expedientes cl¨ªnicos escritos por m¨¦dicos o sentencias jur¨ªdicas, es indispensable que est¨¦n entrenados y sintonizados con la lengua y contenido locales o perder¨ªan demasiados matices.

4. Es una apuesta estrat¨¦gica

Junto a las necesidades ling¨¹¨ªsticas y culturales de un pa¨ªs como Espa?a, est¨¢ el intento de hacer una apuesta tecnol¨®gica. ¡°No es solo una cuesti¨®n sentimental, hist¨®rica o cultural¡±, dice Sen¨¦n Barro, catedr¨¢tico de la Universidad de Santiago de Compostela y director de su Centro Singular de Investigaci¨®n en Tecnolox¨ªas Intelixentes. ¡°Es estrat¨¦gica. Si somos capaces de crear una industria potente en Espa?a de empresas en tecnolog¨ªas ling¨¹¨ªsticas, no solo podr¨¢n trabajar para el autoconsumo sino para el mundo, por ejemplo, en pa¨ªses multiling¨¹es como este. Es un mercado brutal. Se estima que al final de la d¨¦cada la econom¨ªa en torno a las tecnolog¨ªas ling¨¹¨ªsticas puede rondar los 100.000 millones. Es una cantidad enorme¡±, a?ade.

Ser¨ªa raro que muchos de los datos m¨¦dicos o legales que necesitan usar administraciones o empresas espa?olas estuvieran a disposici¨®n de tecnolog¨ªa estadounidense o china. ¡°Debe ser tambi¨¦n por soberan¨ªa, se trata de dar tejido a la industria¡±, dice Rigau. ¡°?Dependeremos siempre de fuera? Hay muchos datos sensibles¡±.

5. El problema del copyright persiste

La dificultad inicial de entrenar un modelo as¨ª es lograr miles de millones de textos. El lugar m¨¢s obvio es la web. La organizaci¨®n Common Crawl recoge peri¨®dicamente todo lo que hay en internet. Su objetivo es loable, que ese material est¨¦ accesible para todos, no solo las grandes tecnol¨®gicas: ¡°Peque?as empresas o incluso individuos pueden acceder a datos de rastreo de alta calidad que antes solo estaban disponibles para las grandes corporaciones¡±, dicen en su p¨¢gina. De ah¨ª saldr¨¢n tambi¨¦n los datos para este modelo hecho desde Espa?a.

En los archivos de Common Crawl est¨¢ toda la web: tambi¨¦n gr¨¢ficos, pornograf¨ªa, memes absurdos y, con toda probabilidad, material bajo copyright, con derechos. Los encargados del modelo limpian al entrenarlo todas las referencias sesgadas, t¨®xicas o lascivas, pero el material con derechos es m¨¢s delicado: ¡°Eso de que no haya problemas de copyright es complicado. Cogemos descargas de Common Crawl, que en EE UU est¨¢ permitido bajo el amparo del fair use¡±, dice Villegas. Ese ¡°uso justo¡± permite usar material con derechos para unos supuestos determinados, como educaci¨®n, citar en informaciones o academia. Su uso para entrenar modelos de IA est¨¢ a¨²n en disputa legal.

¡°Estos modelos no hacen copias¡±, explica Rigau. ¡°Es algo muy complejo, es como si una persona leyera mucho, 20 millones de libros. ?Qu¨¦ recuerdas de ellos? Esto es lo mismo. Lee, no copia. La memoria de la m¨¢quina tampoco es tan buena: se inventa cosas, la imagina. Si le dices el principio de El Quijote no sabr¨¢ seguir. Sabr¨¢ cosas, recordar¨¢ canciones como cualquier persona. Memoriza algo, pero no genera una obra completa de nada¡±, asegura.

Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.

Sobre la firma

M¨¢s informaci¨®n

Archivado En

seductrice.net
universo-virtual.com
buytrendz.net
thisforall.net
benchpressgains.com
qthzb.com
mindhunter9.com
dwjqp1.com
secure-signup.net
ahaayy.com
tressesindia.com
puresybian.com
krpano-chs.com
cre8workshop.com
hdkino.org
peixun021.com
qz786.com
utahperformingartscenter.org
worldqrmconference.com
shangyuwh.com
eejssdfsdfdfjsd.com
playminecraftfreeonline.com
trekvietnamtour.com
your-business-articles.com
essaywritingservice10.com
hindusamaaj.com
joggingvideo.com
wandercoups.com
wormblaster.net
tongchengchuyange0004.com
internetknowing.com
breachurch.com
peachesnginburlesque.com
dataarchitectoo.com
clientfunnelformula.com
30pps.com
cherylroll.com
ks2252.com
prowp.net
webmanicura.com
sofietsshotel.com
facetorch.com
nylawyerreview.com
apapromotions.com
shareparelli.com
goeaglepointe.com
thegreenmanpubphuket.com
karotorossian.com
publicsensor.com
taiwandefence.com
epcsur.com
mfhoudan.com
southstills.com
tvtv98.com
thewellington-hotel.com
bccaipiao.com
colectoresindustrialesgs.com
shenanddcg.com
capriartfilmfestival.com
replicabreitlingsale.com
thaiamarinnewtoncorner.com
gkmcww.com
mbnkbj.com
andrewbrennandesign.com
cod54.com
luobinzhang.com
faithfirst.net
zjyc28.com
tongchengjinyeyouyue0004.com
nhuan6.com
kftz5k.com
oldgardensflowers.com
lightupthefloor.com
bahamamamas-stjohns.com
ly2818.com
905onthebay.com
fonemenu.com
notanothermovie.com
ukrainehighclassescort.com
meincmagazine.com
av-5858.com
yallerdawg.com
donkeythemovie.com
corporatehospitalitygroup.com
boboyy88.com
miteinander-lernen.com
dannayconsulting.com
officialtomsshoesoutletstore.com
forsale-amoxil-amoxicillin.net
generictadalafil-canada.net
guitarlessonseastlondon.com
lesliesrestaurants.com
mattyno9.com
nri-homeloans.com
rtgvisas-qatar.com
salbutamolventolinonline.net
sportsinjuries.info
wedsna.com
rgkntk.com
bkkmarketplace.com
zxqcwx.com
breakupprogram.com
boxcardc.com
unblockyoutubeindonesia.com
fabulousbookmark.com
beat-the.com
guatemala-sailfishing-vacations-charters.com
magie-marketing.com
kingstonliteracy.com
guitaraffinity.com
eurelookinggoodapparel.com
howtolosecheekfat.net
marioncma.org
oliviadavismusic.com
shantelcampbellrealestate.com
shopleborn13.com
topindiafree.com
v-visitors.net
djjky.com
053hh.com
originbluei.com
baucishotel.com
33kkn.com
intrinsiqresearch.com
mariaescort-kiev.com
mymaguk.com
sponsored4u.com
crimsonclass.com
bataillenavale.com
searchtile.com
ze-stribrnych-struh.com
zenithalhype.com
modalpkv.com
bouisset-lafforgue.com
useupload.com
37r.net
autoankauf-muenster.com
bantinbongda.net
bilgius.com
brabustermagazine.com
indigrow.org
miicrosofts.net
mysmiletravel.com
selinasims.com
spellcubesapp.com
usa-faction.com
hypoallergenicdogsnames.com
dailyupdatez.com
foodphotographyreviews.com
cricutcom-setup.com
chprowebdesign.com
katyrealty-kanepa.com
tasramar.com
bilgipinari.org
four-am.com
indiarepublicday.com
inquick-enbooks.com
iracmpi.com
kakaschoenen.com
lsm99flash.com
nana1255.com
ngen-niagara.com
technwzs.com
virtualonlinecasino1345.com
wallpapertop.net
casino-natali.com
iprofit-internet.com
denochemexicana.com
eventhalfkg.com
medcon-taiwan.com
life-himawari.com
myriamshomes.com
nightmarevue.com
healthandfitnesslives.com
androidnews-jp.com
allstarsru.com
bestofthebuckeyestate.com
bestofthefirststate.com
bestwireless7.com
britsmile.com
declarationintermittent.com
findhereall.com
jingyou888.com
lsm99deal.com
lsm99galaxy.com
moozatech.com
nuagh.com
patliyo.com
philomenamagikz.net
rckouba.net
saturnunipessoallda.com
tallahasseefrolics.com
thematurehardcore.net
totalenvironment-inthatquietearth.com
velislavakaymakanova.com
vermontenergetic.com
kakakpintar.com
jerusalemdispatch.com
begorgeouslady.com
1800birks4u.com
2wheelstogo.com
6strip4you.com
bigdata-world.net
emailandco.net
gacapal.com
jharpost.com
krishnaastro.com
lsm99credit.com
mascalzonicampani.com
sitemapxml.org
thecityslums.net
topagh.com
flairnetwebdesign.com
rajasthancarservices.com
bangkaeair.com
beneventocoupon.com
noternet.org
oqtive.com
smilebrightrx.com
decollage-etiquette.com
1millionbestdownloads.com
7658.info
bidbass.com
devlopworldtech.com
digitalmarketingrajkot.com
fluginfo.net
naqlafshk.com
passion-decouverte.com
playsirius.com
spacceleratorintl.com
stikyballs.com
top10way.com
yokidsyogurt.com
zszyhl.com
16firthcrescent.com
abogadolaboralistamd.com
apk2wap.com
aromacremeria.com
banparacard.com
bosmanraws.com
businessproviderblog.com
caltonosa.com
calvaryrevivalchurch.org
chastenedsoulwithabrokenheart.com
cheminotsgardcevennes.com
cooksspot.com
cqxzpt.com
deesywig.com
deltacartoonmaps.com
despixelsetdeshommes.com
duocoracaobrasileiro.com
fareshopbd.com
goodpainspills.com
hemendekor.com
kobisitecdn.com
makaigoods.com
mgs1454.com
piccadillyresidences.com
radiolaondafresca.com
rubendorf.com
searchengineimprov.com
sellmyhrvahome.com
shugahouseessentials.com
sonihullquad.com
subtractkilos.com
valeriekelmansky.com
vipasdigitalmarketing.com
voolivrerj.com
worldhealthstory.com
zeelonggroup.com
1015southrockhill.com
10x10b.com
111-online-casinos.com
191cb.com
3665arpentunitd.com
aitesonics.com
bag-shokunin.com
brightotech.com
communication-digitale-services.com
covoakland.org
dariaprimapack.com
freefortniteaccountss.com
gatebizglobal.com
global1entertainmentnews.com
greatytene.com
hiroshiwakita.com
iktodaypk.com
jahatsakong.com
meadowbrookgolfgroup.com
newsbharati.net
platinumstudiosdesign.com
slotxogamesplay.com
strikestaruk.com
techguroh.com
trucosdefortnite.com
ufabetrune.com
weddedtowhitmore.com
12940brycecanyonunitb.com
1311dietrichoaks.com
2monarchtraceunit303.com
601legendhill.com
850elaine.com
adieusolasomade.com
andora-ke.com
bestslotxogames.com
cannagomcallen.com
endlesslyhot.com
iestpjva.com
ouqprint.com
pwmaplefest.com
qtylmr.com
rb88betting.com
buscadogues.com
1007macfm.com
born-wild.com
growthinvests.com
promocode-casino.com
proyectogalgoargentina.com
wbthompson-art.com
whitemountainwheels.com
7thavehvl.com
developmethis.com
funkydogbowties.com
travelodgegrandjunction.com
gao-town.com
globalmarketsuite.com
blogshippo.com
hdbka.com
proboards67.com
outletonline-michaelkors.com
kalkis-research.com
thuthuatit.net
buckcash.com
hollistercanada.com
docterror.com
asadart.com
vmayke.org
erwincomputers.com
dirimart.org
okkii.com
loteriasdecehegin.com
mountanalog.com
healingtaobritain.com
ttxmonitor.com
nwordpress.com
11bolabonanza.com