La larga marcha de un grupo de voluntarios por lograr un ChatGPT hispano: ¡°Un modelo entrenado en espa?ol ser¨ªa incre¨ªble¡±

Mar¨ªa Grandury lanz¨® en 2021 SomosNLP, una iniciativa voluntaria para tener m¨¢s recursos en nuestra lengua en inteligencia artificial. Su trayectoria muestra la complejidad de lograr un chatbot nacional

Mar¨ªa Grandury, cient¨ªfica espa?ola que fund¨® SomosNLP, en la plaza de San Cayetano, en Madrid.Samuel S¨¢nchez

¡°La pregunta es ¡®dame una receta t¨ªpica de Per¨²', y entonces te la da¡±, dice Mar¨ªa Grandury, fundadora de la organizaci¨®n de voluntarios SomosNLP. Grandury describe una acci¨®n banal para los nuevos chatbots hechos con inteligencia artificial (IA). Esa simple petici¨®n incluye, sin embargo, un enorme trabajo previo, la mayor parte automatizado, pero en gran parte tambi¨¦n humano.

...

Suscr¨ªbete para seguir leyendo

Lee sin l¨ªmites

¡°La pregunta es ¡®dame una receta t¨ªpica de Per¨²', y entonces te la da¡±, dice Mar¨ªa Grandury, fundadora de la organizaci¨®n de voluntarios SomosNLP. Grandury describe una acci¨®n banal para los nuevos chatbots hechos con inteligencia artificial (IA). Esa simple petici¨®n incluye, sin embargo, un enorme trabajo previo, la mayor parte automatizado, pero en gran parte tambi¨¦n humano.

Esa pregunta necesita, al menos, tres elementos b¨¢sicos: primero, una base de datos que incluya recetas peruanas en espa?ol, que salen de internet. Segundo, una lista de preguntas y respuestas que permita al modelo aprender qu¨¦ responder cuando le preguntan por una receta peruana. Y tercero, un control que permita revisar la respuesta y decir si es correcta.

Esta sencilla explicaci¨®n de tres pasos oculta una variedad ingente de opciones, donde la financiaci¨®n es clave. Las grandes empresas de Silicon Valley y el ingl¨¦s dominan en todo con mucha distancia. ?Qu¨¦ se hace desde otras lenguas? Se intenta, a distintos niveles. El espa?ol deber¨ªa ser una lengua tambi¨¦n dominante, pero en realidad no lo es tanto. El reto de hacer que una m¨¢quina aprenda a responder cualquier pregunta en espa?ol (no un pu?ado, centradas en un solo tema) es enormemente complejo.

El primer paso clave es reunir ingentes cantidades de texto para entrenar lo que se llama un modelo fundacional. ¡°De mucho texto no tenemos tant¨ªsimos, pero s¨ª que hay m¨¢s en estos ¨²ltimos tres a?os, ha ido creciendo la comunidad y han surgido iniciativas por parte del Gobierno¡±, dice Grandury. Se refiere sobre todo a Alia, modelo impulsado por el Gobierno de Espa?a y del que el ministro Jos¨¦ Luis Escriv¨¢ dijo en EL PA?S que ¡°abrir¨¢ las puertas a una nueva generaci¨®n de productos tecnol¨®gicos enriquecidos con el vasto patrimonio ling¨¹¨ªstico del castellano y las lenguas cooficiales de Espa?a¡±.

El modelo es una parte que requiere muchos datos originales pero tambi¨¦n mucha computaci¨®n. Por eso es indispensable el acuerdo del Gobierno con el Barcelona Super Computing Center y con IBM. Pero con eso solo hay un modelo capaz escribir texto a partir de una frase inicial, no una pregunta. Pero los chats que se han popularizado son precisamente de preguntas y respuestas. Esas instrucciones no existen en espa?ol, al menos p¨²blicas. Ah¨ª es donde entra en juego SomosNLP (NLP son las siglas de Procesamiento de Lenguaje Natural en ingl¨¦s), que intenta reunir recursos para que la presencia del espa?ol mejore en la IA: ¡°De bases de datos con instrucciones solo hay p¨²blicos los que est¨¢n en ingl¨¦s. Lo que suele hacerse es cogerlos y traducirlos¡±, dice Grandury. ¡°Lo que vamos a hacer nosotros es crear seguramente el mayor hasta ahora corpus de instrucciones abierto en espa?ol¡±, a?ade.

Grandury, de 26 a?os y de Ponferrada, tiene ya experiencia en el espinoso camino de montar un modelo viable en espa?ol. Tras licenciarse en matem¨¢ticas y f¨ªsica en la Universidad de Oviedo y trabajar brevemente en Berl¨ªn, fich¨® por Clibrain. En el verano de 2023 Clibrain ¡°quer¨ªa ser la referencia mundial de la IA en espa?ol¡± y su cofundadora, Elena Gonz¨¢lez-Blanco, era ¡°la referencia mundial de la IA en espa?ol¡±, seg¨²n titulares de prensa. Incluso sacaron un modelo con un nombre tan espa?ol como Lince. Hoy Clibrain ha cerrado.

¡°Lince funcionaba bien, falt¨® hacerlo m¨¢s accesible, por ejemplo con una interfaz. Aunque eso tambi¨¦n es costoso, tenerlo disponible para que la gente lo utilice¡±, dice Grandury, en referencia a la necesidad de computaci¨®n requerida para que un modelo est¨¦ disponible en internet para ir respondiendo preguntas de usuarios.

Francia ya tiene su l¨ªder

Mientras, Francia s¨ª ha conseguido con Mistral una empresa nacional que compita a escala global. ¡°El campe¨®n de IA de Europa pone su mira en los gigantes tecnol¨®gicos de EE UU¡±, titulaba el New York Times en abril. Su presidente ejecutivo, el franc¨¦s de 31 a?os Arthur Mensch, ex empleado de Google, dec¨ªa: ¡°Estos modelos moldean nuestra comprensi¨®n cultural del mundo, y los valores de Francia y los valores de Estados Unidos difieren en formas sutiles pero importantes¡±.

La distancia en financiaci¨®n sigue siendo enorme: OpenAI ha logrado inversiones por valor de 13.000 millones de d¨®lares; Mistral, 540 millones. El modelo de Mistral es en ingl¨¦s, pero hay aparentemente un esfuerzo para meter m¨¢s contenido en franc¨¦s: al menos literatura francesa del siglo XIX, que ya no tiene derechos de autor, seg¨²n el NYTimes.

Grandury coincidi¨® con gente de Mistral al poco de lanzar su modelo. ¡°Ya no contaban mucho, Les pregunt¨¦ s¨ª hab¨ªan entrenado con texto en franc¨¦s o en espa?ol. ¡®Puede ser¡¯, me dijeron¡±, sin aclarar ning¨²n detalle. ¡°La gente no habla¡±, a?ade.

El presidente franc¨¦s, Emmanuel Macron, recibe a Mensch. El presidente espa?ol, Pedro S¨¢nchez, anunci¨® el nuevo modelo Alia y se reuni¨® con el espa?ol Dar¨ªo Gil, vicepresidente de IBM. A falta de empresas potentes, los espa?oles bien colocados pueden ser de ayuda. Es probable que ayude en Francia que uno de los ¡°padres de la IA¡± sea el franc¨¦s Yann LeCun, cient¨ªfico jefe de IA en Meta.

La ventaja del ingl¨¦s es que internet es en ingl¨¦s. El espa?ol y el franc¨¦s deben buscar y negociar con montones de instituciones para alimentar sus modelos, igual que lenguas m¨¢s peque?as como las cooficiales espa?olas o precolombinas en Am¨¦rica Latina.

Somos NLP no tiene capacidad para entrenar esos modelos, pero s¨ª puede montar esfuerzos voluntarios, como un hackat¨®n, para ir reuniendo pares de preguntas y respuestas generales. ?Qu¨¦ motiva a cientos de voluntarios a hacer estos esfuerzos por mejorar la IA en espa?ol? ¡°Te unes a una gran comunidad internacional de personas con tus mismos intereses y sabes que, a la vez que est¨¢s aprendiendo y ganando visibilidad, est¨¢s aportando tu granito de arena a un objetivo com¨²n: colaborar con la preservaci¨®n de tu lengua y cultura¡±, dice Grandury.

Unos 20 equipos de cinco personas crearon en unos d¨ªas 200.000 instrucciones. Es factible crear con c¨®digo preguntas y respuestas a partir de bases de datos de temas espec¨ªficos. ¡°Hay pdfs, webs sobre temas legales o de refugiados en conversaciones en grupos abiertos de Telegram. Cuando tienes un mont¨®n de datos, puedes crear autom¨¢ticamente pares de preguntas y respuestas sobre ese texto. Despu¨¦s lo mandas a un espacio de anotaci¨®n y ya humanos, la gente de cada equipo, va revisando para ver si tienen sentido. Es mucho m¨¢s r¨¢pido porque ya no tienes que ir leyendo y buscando una pregunta y su respuesta¡±, dice Grandury. Los humanos son como profesores de lengua de los chatbots, que les van indicando errores y aciertos y le corrigen para que mejores sus respuestas.

El objetivo de SomosNLP es crear 10 millones de preguntas y respuestas originales en espa?ol. ¡°Seguir¨ªa siendo un tercio del mayor corpus sint¨¦tico en ingl¨¦s¡±, dice Grandury. En SomosNLP el trabajo es de momento estrictamente voluntario. Solo algunos patrocinios para sus acciones, como el uso de servidores o premios, procede entre otros de la compa?¨ªa Hugging Face, construida alrededor de una comunidad que trabaja la IA de manera abierta.

Las grandes empresas de Silicon Valley no revelan c¨®mo hacen este proceso. En enero de 2023 se supo que OpenAI hab¨ªa pagado a miles de trabajadores en Kenia para que anotaran respuestas demasiado t¨®xicas y el chatbot aprendiera que no deb¨ªa darlas. Pero apenas hay m¨¢s detalles: ¡°No sabemos hasta qu¨¦ punto automatizan la creaci¨®n de preguntas¡±, dice Grandury. ¡°Despu¨¦s hay mucha parte humana donde nosotros ni de lejos manejamos la misma cantidad de datos. Imaginar cu¨¢ntas personas est¨¢n ah¨ª anotadas es impensable¡±.

Meta acaba de sacar su nuevo modelo Llama 3. En un documento titulado Nuestra aproximaci¨®n responsable a Meta AI y a Meta Llama 3, la compa?¨ªa dedica 3.000 palabras a explicar pasos, a menudo en colaboraci¨®n con humanos, para que no d¨¦ respuestas pol¨ªticamente incorrectas. Pero no cuentan c¨®mo han hecho todo el proceso anterior.

Por qu¨¦ no usar ChatGPT en espa?ol

Una pregunta repetida es por qu¨¦ no usar los modelos que ya existen y que responden bien en espa?ol. Adem¨¢s de las cuestiones estrat¨¦gica, cultural y abierta, es dif¨ªcil que un modelo creado originalmente en ingl¨¦s sepa distinguir variantes dialectales del espa?ol.

¡°La gracia ser¨ªa no coger un modelo multiling¨¹e y adaptarlo, sino coger uno que est¨¦ entrenado en espa?ol y despu¨¦s adaptarlo con datos en espa?ol, ser¨ªa incre¨ªble¡±, dice Grandury. ?C¨®mo se notar¨ªan las diferencias? ¡°Hay cosas m¨¢s sutiles en el lenguaje, por ejemplo c¨®mo se expresa si se tiene un C1 o C2 o si utilizas expresiones coloquiales o m¨¢s elaboradas¡±.

El objetivo inmediato del modelo impulsado por el Gobierno es dar a empresas y organizaciones algo muy espa?ol para sus necesidades concretas: es sencillo refinar un modelo para que responda solo sobre accidentes laborales en Espa?a, seguros de coche o matriculaci¨®n en tal universidad. ¡°La tendencia es ir hacia modelos especializados: uno legal, por ejemplo, para que tambi¨¦n aprenda a hablar m¨¢s con ese tipo de idioma¡±, dice Grandury.

Aunque un objetivo final es caminar hacia un chat general como ChatGPT, no ser¨¢ un camino sencillo: ¡°Solos no lo vamos a hacer¡±, aclara por si acaso.

Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.

Sobre la firma

M¨¢s informaci¨®n

Archivado En

universo-virtual.com
buytrendz.net
thisforall.net
benchpressgains.com
qthzb.com
mindhunter9.com
dwjqp1.com
secure-signup.net
ahaayy.com
soxtry.com
tressesindia.com
puresybian.com
krpano-chs.com
cre8workshop.com
hdkino.org
peixun021.com
qz786.com
utahperformingartscenter.org
maw-pr.com
zaaksen.com
ypxsptbfd7.com
worldqrmconference.com
shangyuwh.com
eejssdfsdfdfjsd.com
playminecraftfreeonline.com
trekvietnamtour.com
your-business-articles.com
essaywritingservice10.com
hindusamaaj.com
joggingvideo.com
wandercoups.com
onlinenewsofindia.com
worldgraphic-team.com
bnsrz.com
wormblaster.net
tongchengchuyange0004.com
internetknowing.com
breachurch.com
peachesnginburlesque.com
dataarchitectoo.com
clientfunnelformula.com
30pps.com
cherylroll.com
ks2252.com
webmanicura.com
osostore.com
softsmob.com
sofietsshotel.com
facetorch.com
nylawyerreview.com
apapromotions.com
shareparelli.com
goeaglepointe.com
thegreenmanpubphuket.com
karotorossian.com
publicsensor.com
taiwandefence.com
epcsur.com
odskc.com
inzziln.info
leaiiln.info
cq-oa.com
dqtianshun.com
southstills.com
tvtv98.com
thewellington-hotel.com
bccaipiao.com
colectoresindustrialesgs.com
shenanddcg.com
capriartfilmfestival.com
replicabreitlingsale.com
thaiamarinnewtoncorner.com
gkmcww.com
mbnkbj.com
andrewbrennandesign.com
cod54.com
luobinzhang.com
bartoysdirect.com
taquerialoscompadresdc.com
aaoodln.info
amcckln.info
drvrnln.info
dwabmln.info
fcsjoln.info
hlonxln.info
kcmeiln.info
kplrrln.info
fatcatoons.com
91guoys.com
signupforfreehosting.com
faithfirst.net
zjyc28.com
tongchengjinyeyouyue0004.com
nhuan6.com
oldgardensflowers.com
lightupthefloor.com
bahamamamas-stjohns.com
ly2818.com
905onthebay.com
fonemenu.com
notanothermovie.com
ukrainehighclassescort.com
meincmagazine.com
av-5858.com
yallerdawg.com
donkeythemovie.com
corporatehospitalitygroup.com
boboyy88.com
miteinander-lernen.com
dannayconsulting.com
officialtomsshoesoutletstore.com
forsale-amoxil-amoxicillin.net
generictadalafil-canada.net
guitarlessonseastlondon.com
lesliesrestaurants.com
mattyno9.com
nri-homeloans.com
rtgvisas-qatar.com
salbutamolventolinonline.net
sportsinjuries.info
topsedu.xyz
xmxm7.com
x332.xyz
sportstrainingblog.com
autopartspares.com
readguy.net
soniasegreto.com
bobbygdavis.com
wedsna.com
rgkntk.com
bkkmarketplace.com
zxqcwx.com
breakupprogram.com
boxcardc.com
unblockyoutubeindonesia.com
fabulousbookmark.com
beat-the.com
guatemala-sailfishing-vacations-charters.com
magie-marketing.com
kingstonliteracy.com
guitaraffinity.com
eurelookinggoodapparel.com
howtolosecheekfat.net
marioncma.org
oliviadavismusic.com
shantelcampbellrealestate.com
shopleborn13.com
topindiafree.com
v-visitors.net
qazwsxedcokmijn.com
parabis.net
terriesandelin.com
luxuryhomme.com
studyexpanse.com
ronoom.com
djjky.com
053hh.com
originbluei.com
baucishotel.com
33kkn.com
intrinsiqresearch.com
mariaescort-kiev.com
mymaguk.com
sponsored4u.com
crimsonclass.com
bataillenavale.com
searchtile.com
ze-stribrnych-struh.com
zenithalhype.com
modalpkv.com
bouisset-lafforgue.com
useupload.com
37r.net
autoankauf-muenster.com
bantinbongda.net
bilgius.com
brabustermagazine.com
indigrow.org
miicrosofts.net
mysmiletravel.com
selinasims.com
spellcubesapp.com
usa-faction.com
snn01.com
hope-kelley.com
bancodeprofissionais.com
zjccp99.com
liturgycreator.com
weedsmj.com
majorelenco.com
colcollect.com
androidnews-jp.com
hypoallergenicdogsnames.com
dailyupdatez.com
foodphotographyreviews.com
cricutcom-setup.com
chprowebdesign.com
katyrealty-kanepa.com
tasramar.com
bilgipinari.org
four-am.com
indiarepublicday.com
inquick-enbooks.com
iracmpi.com
kakaschoenen.com
lsm99flash.com
nana1255.com
ngen-niagara.com
technwzs.com
virtualonlinecasino1345.com
wallpapertop.net
nova-click.com
abeautifulcrazylife.com
diggmobile.com
denochemexicana.com
eventhalfkg.com
medcon-taiwan.com
life-himawari.com
myriamshomes.com
nightmarevue.com
allstarsru.com
bestofthebuckeyestate.com
bestofthefirststate.com
bestwireless7.com
declarationintermittent.com
findhereall.com
jingyou888.com
lsm99deal.com
lsm99galaxy.com
moozatech.com
nuagh.com
patliyo.com
philomenamagikz.net
rckouba.net
saturnunipessoallda.com
tallahasseefrolics.com
thematurehardcore.net
totalenvironment-inthatquietearth.com
velislavakaymakanova.com
vermontenergetic.com
sizam-design.com
kakakpintar.com
begorgeouslady.com
1800birks4u.com
2wheelstogo.com
6strip4you.com
bigdata-world.net
emailandco.net
gacapal.com
jharpost.com
krishnaastro.com
lsm99credit.com
mascalzonicampani.com
sitemapxml.org
thecityslums.net
topagh.com
flairnetwebdesign.com
bangkaeair.com
beneventocoupon.com
noternet.org
oqtive.com
smilebrightrx.com
decollage-etiquette.com
1millionbestdownloads.com
7658.info
bidbass.com
devlopworldtech.com
digitalmarketingrajkot.com
fluginfo.net
naqlafshk.com
passion-decouverte.com
playsirius.com
spacceleratorintl.com
stikyballs.com
top10way.com
yokidsyogurt.com
zszyhl.com
16firthcrescent.com
abogadolaboralistamd.com
apk2wap.com
aromacremeria.com
banparacard.com
bosmanraws.com
businessproviderblog.com
caltonosa.com
calvaryrevivalchurch.org
chastenedsoulwithabrokenheart.com
cheminotsgardcevennes.com
cooksspot.com
cqxzpt.com
deesywig.com
deltacartoonmaps.com
despixelsetdeshommes.com
duocoracaobrasileiro.com
fareshopbd.com
goodpainspills.com
kobisitecdn.com
makaigoods.com
mgs1454.com
piccadillyresidences.com
radiolaondafresca.com
rubendorf.com
searchengineimprov.com
sellmyhrvahome.com
shugahouseessentials.com
sonihullquad.com
subtractkilos.com
valeriekelmansky.com
vipasdigitalmarketing.com
voolivrerj.com
zeelonggroup.com
1015southrockhill.com
10x10b.com
111-online-casinos.com
191cb.com
3665arpentunitd.com
aitesonics.com
bag-shokunin.com
brightotech.com
communication-digitale-services.com
covoakland.org
dariaprimapack.com
freefortniteaccountss.com
gatebizglobal.com
global1entertainmentnews.com
greatytene.com
hiroshiwakita.com
iktodaypk.com
jahatsakong.com
meadowbrookgolfgroup.com
newsbharati.net
platinumstudiosdesign.com
slotxogamesplay.com
strikestaruk.com
trucosdefortnite.com
ufabetrune.com
weddedtowhitmore.com
12940brycecanyonunitb.com
1311dietrichoaks.com
2monarchtraceunit303.com
601legendhill.com
850elaine.com
adieusolasomade.com
andora-ke.com
bestslotxogames.com
cannagomcallen.com
endlesslyhot.com
iestpjva.com
ouqprint.com
pwmaplefest.com
qtylmr.com
rb88betting.com
buscadogues.com
1007macfm.com
born-wild.com
growthinvests.com
promocode-casino.com
proyectogalgoargentina.com
wbthompson-art.com
whitemountainwheels.com
7thavehvl.com
developmethis.com
funkydogbowties.com
travelodgegrandjunction.com
gao-town.com
globalmarketsuite.com
blogshippo.com
hdbka.com
proboards67.com
outletonline-michaelkors.com
kalkis-research.com
thuthuatit.net
buckcash.com
hollistercanada.com
docterror.com
asadart.com
vmayke.org
erwincomputers.com
dirimart.org
okkii.com
loteriasdecehegin.com
mountanalog.com
healingtaobritain.com
ttxmonitor.com
bamthemes.com
nwordpress.com
11bolabonanza.com
avgo.top