_
_
_
_

Investigadores espa?oles descubren el truco que usan las IA para sacar tan buenas notas: ¡°Es verdadera kriptonita¡±

Elon Musk acaba de anunciar Grok 3, de su empresa xAI, y ya hay pruebas que dicen que es el nuevo mejor chatbot. Pero una nueva investigaci¨®n demuestra que los tests tienen muchas limitaciones

Elon Musk in Washington on February 13.
Elon Musk present¨® su modelo de IA Grok 3, de xAI. En la imagen, Musk en Washington el pasado 13 de febrero.Nathan Howard (REUTERS)
Jordi P¨¦rez Colom¨¦

¡°Grok 3 es la IA m¨¢s inteligente del mundo¡±, lanz¨® este martes la cuenta de X de Grok. Elon Musk, due?o de la empresa que lo desarrolla, xAI, estuvo todo el d¨ªa repitiendo mensajes sobre c¨®mo Grok es ¡°el mejor chatbot del mundo¡± o que ¡°est¨¢ en la cima del mundo¡±. Horas antes Sam Altman, de ChatGPT, hab¨ªa escrito: ¡°GPT-4.5 ha sido, para los primeros testadores m¨¢s exigentes, una experiencia m¨¢s cercana a una IA con sentido com¨²n de lo que esperaba¡±.

Muchas de estas afirmaciones son puro marketing. Los chatbots de IA son un campo hoy extremadamente competitivo y decir que uno es el mejor atrae mucha inversi¨®n. Pero tambi¨¦n hay un pu?ado de indicadores de referencia (llamados benchmarks en ingl¨¦s) que sirven de prueba para comprobar qu¨¦ modelos de IA responden mejor en tests similares. Si no est¨¢s arriba en esas pruebas, no eres nadie.

¡°Los n¨²meros de Grok 3 en su lanzamiento son un ejemplo perfecto de los problemas de la evaluaci¨®n actual¡±, dice Julio Gonzalo, catedr¨¢tico de Lenguajes y Sistemas Inform¨¢ticos de la UNED. ¡°Si hay mucha presi¨®n competitiva, hay exceso de atenci¨®n sobre los benchmarks, y a las empresas les resultar¨ªa f¨¢cil manipularlos, as¨ª que no podemos fiarnos de los n¨²meros que nos reportan¡±. Junto a otros dos investigadores espa?oles, Gonzalo ha probado un truco sencillo pero implacable para comprobar la eficacia de algunos de estos tests m¨¢s prominentes. El objetivo b¨¢sico era saber si los modelos le¨ªan y respond¨ªan como cualquier estudiante o, en cambio, solo buscaban la respuesta en el ingente cuerpo de datos que se ha usado para su entreno.

El resultado es que son a¨²n sobre todo las m¨¢quinas m¨¢s empollonas nunca antes ideadas: ¡°En su primera fase de entrenamiento, en la que aprenden el lenguaje, el procedimiento es de pesca de arrastre: se leen, esencialmente, todo el contenido online. Por tanto, los desarrolladores saben que la probabilidad de que hayan visto la respuesta a un examen disponible online es muy alta¡±, explica Eva S¨¢nchez Salido, coautora e investigadora en la UNED.

C¨®mo liar a los modelos

?Qu¨¦ detalle han cambiado en el experimento para enga?ar a los modelos? Los investigadores han sustituido la respuesta correcta por una general que dice: ¡°Ninguna de las otras¡±. As¨ª, el modelo deb¨ªa entender la pregunta y razonar, no solo encontrar la respuesta m¨¢s probable en su memoria. ¡°La respuesta acertada tiene un vocabulario completamente desconectado de la pregunta, lo que le obliga a razonar sobre cada una de las otras respuestas posibles y descartarlas, es una variaci¨®n mucho m¨¢s exigente¡±, dice Gonzalo. ¡°Es verdadera kriptonita para los modelos¡±, a?ade.

Seg¨²n el art¨ªculo, ¡°los resultados muestran que todos los modelos pierden precisi¨®n de forma notable con nuestra variaci¨®n propuesta, con una ca¨ªda promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10 % y el 93 % seg¨²n el modelo¡±, escriben los investigadores en el texto.

Este tipo de variaciones ya se hab¨ªa probado sobre todo con las preguntas, pero ha sido este cambio en las respuestas el que ha dado resultados m¨¢s claros. ¡°Este cambio tan simple de repente quita un velo a la experimentaci¨®n con benchmarks y nos permite ver el progreso real en las capacidades de razonamiento aproximado de los sistemas sin el ruido que produce el acierto por memorizaci¨®n¡±, dice Guillermo Marco, coautor del experimento e investigador en la UNED.

Este cambio no prueba que las IA sean de repente in¨²tiles, pero s¨ª que su capacidad de razonamiento estaba hinchada y que evoluciona de manera m¨¢s lenta que los departamentos de marketing y expertos en dar bombo pretenden: ¡°Nuestros resultados demuestran que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalizaci¨®n escasa¡±, dice Gonzalo. ¡°En otras palabras, siguen contestando de o¨ªdas, intuitivamente, y siguen siendo, en esencia, s¨²percu?ados que lo han le¨ªdo todo, pero no han asimilado nada¡±.

El debate sobre las limitaciones de los benchmarks est¨¢ m¨¢s extendido de lo que parece. Este mismo martes, uno de los mayores divulgadores sobre IA, Ethan Mollick, ped¨ªa tests m¨¢s fiables.

Hace unas semanas sali¨® otro test llamado ¡°examen definitivo de humanidad¡± que, de nuevo, los modelos parecen superar r¨¢pido m¨¢s r¨¢pido de lo previsto. Son preguntas m¨¢s dif¨ªciles, de nivel doctorado, y con unas respuestas que en principio no se encuentran online. Un problema a?adido sobre esta prueba es que el corrector es otro modelo: ChatGPT-o3 mini. Tampoco parece la soluci¨®n a los problemas de medici¨®n: ¡°Es mucho m¨¢s importante dise?ar bien los ex¨¢menes, para que los resultados sean interpretables, que inventar ex¨¢menes m¨¢s dif¨ªciles como si los chatbots ya tuvieran el nivel de graduados y hubiera que ponerles a hacer una tesis doctoral¡±, dice Gonzalo.

Tambi¨¦n es sustancial la diferencia entre lenguas. Estos modelos sacan mejor nota en ingl¨¦s. Los investigadores han probado con el espa?ol para comparar y sale ya peor. En lenguas m¨¢s minoritarias los resultados deber¨ªan ser a¨²n m¨¢s flojos: ¡°El trabajo lo hemos hecho dentro del proyecto Odesia, un convenio entre Red.es y la UNED para medir la distancia entre el ingl¨¦s y el espa?ol en IA¡±, dice Gonzalo. ¡°Hemos detectado una tendencia muy clara: cuanto peor es el modelo (en general, cuando son cerebros artificiales con menos neuronas), m¨¢s se nota la diferencia entre espa?ol y ingl¨¦s¡±. Esta diferencia tiene m¨¢s importancia de lo que parece porque los modelos de tama?o reducido se pueden instalar localmente en dispositivos y eso garantiza la privacidad de los datos. ¡°As¨ª se acaban usando modelos que funcionan mucho peor en espa?ol que ChatGPT o Claude¡±, a?ade Gonzalo.

Todo esto no significa que los modelos de IA tengan un techo claro. Los modelos de lenguaje puros s¨ª que parecen tener un l¨ªmite, pero los nuevos de razonamiento son m¨¢s completos que los anteriores. ¡°Por ejemplo, ChatGPT-o3 mini, aunque baja mucho su rendimiento, es el ¨²nico que consigue aprobar [uno de los benchmarks]. Se est¨¢n buscando nuevas t¨¦cnicas de superar el funcionamiento de los modelos de lenguaje¡±, dice Gonzalo. En las pruebas de los investigadores, junto al ¨²nico aprobado pelado de GPT-o3 mini, el otro modelo que mejor queda es DeepSeek R1-70b, porque baja menos que el resto su rendimiento con el nuevo test.

Tu suscripci¨®n se est¨¢ usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci¨®n?

Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.

?Por qu¨¦ est¨¢s viendo esto?

Flecha

Tu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.

?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.

En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.

Sobre la firma

Jordi P¨¦rez Colom¨¦
Es reportero de Tecnolog¨ªa, preocupado por las consecuencias sociales que provoca internet. Escribe cada semana una newsletter sobre los jaleos que provocan estos cambios. Fue premio Jos¨¦ Manuel Porquet 2012 e iRedes Letras Enredadas 2014. Ha dado y da clases en cinco universidades espa?olas. Entre otros estudios, es fil¨®logo italiano.
Rellena tu nombre y apellido para comentarcompletar datos

M¨¢s informaci¨®n

Archivado En

Recomendaciones EL PA?S
Recomendaciones EL PA?S
Recomendaciones EL PA?S
_
_
universo-virtual.com
buytrendz.net
thisforall.net
benchpressgains.com
qthzb.com
mindhunter9.com
dwjqp1.com
secure-signup.net
ahaayy.com
soxtry.com
tressesindia.com
puresybian.com
krpano-chs.com
cre8workshop.com
hdkino.org
peixun021.com
qz786.com
utahperformingartscenter.org
maw-pr.com
zaaksen.com
ypxsptbfd7.com
worldqrmconference.com
shangyuwh.com
eejssdfsdfdfjsd.com
playminecraftfreeonline.com
trekvietnamtour.com
your-business-articles.com
essaywritingservice10.com
hindusamaaj.com
joggingvideo.com
wandercoups.com
onlinenewsofindia.com
worldgraphic-team.com
bnsrz.com
wormblaster.net
tongchengchuyange0004.com
internetknowing.com
breachurch.com
peachesnginburlesque.com
dataarchitectoo.com
clientfunnelformula.com
30pps.com
cherylroll.com
ks2252.com
webmanicura.com
osostore.com
softsmob.com
sofietsshotel.com
facetorch.com
nylawyerreview.com
apapromotions.com
shareparelli.com
goeaglepointe.com
thegreenmanpubphuket.com
karotorossian.com
publicsensor.com
taiwandefence.com
epcsur.com
odskc.com
inzziln.info
leaiiln.info
cq-oa.com
dqtianshun.com
southstills.com
tvtv98.com
thewellington-hotel.com
bccaipiao.com
colectoresindustrialesgs.com
shenanddcg.com
capriartfilmfestival.com
replicabreitlingsale.com
thaiamarinnewtoncorner.com
gkmcww.com
mbnkbj.com
andrewbrennandesign.com
cod54.com
luobinzhang.com
bartoysdirect.com
taquerialoscompadresdc.com
aaoodln.info
amcckln.info
drvrnln.info
dwabmln.info
fcsjoln.info
hlonxln.info
kcmeiln.info
kplrrln.info
fatcatoons.com
91guoys.com
signupforfreehosting.com
faithfirst.net
zjyc28.com
tongchengjinyeyouyue0004.com
nhuan6.com
oldgardensflowers.com
lightupthefloor.com
bahamamamas-stjohns.com
ly2818.com
905onthebay.com
fonemenu.com
notanothermovie.com
ukrainehighclassescort.com
meincmagazine.com
av-5858.com
yallerdawg.com
donkeythemovie.com
corporatehospitalitygroup.com
boboyy88.com
miteinander-lernen.com
dannayconsulting.com
officialtomsshoesoutletstore.com
forsale-amoxil-amoxicillin.net
generictadalafil-canada.net
guitarlessonseastlondon.com
lesliesrestaurants.com
mattyno9.com
nri-homeloans.com
rtgvisas-qatar.com
salbutamolventolinonline.net
sportsinjuries.info
topsedu.xyz
xmxm7.com
x332.xyz
sportstrainingblog.com
autopartspares.com
readguy.net
soniasegreto.com
bobbygdavis.com
wedsna.com
rgkntk.com
bkkmarketplace.com
zxqcwx.com
breakupprogram.com
boxcardc.com
unblockyoutubeindonesia.com
fabulousbookmark.com
beat-the.com
guatemala-sailfishing-vacations-charters.com
magie-marketing.com
kingstonliteracy.com
guitaraffinity.com
eurelookinggoodapparel.com
howtolosecheekfat.net
marioncma.org
oliviadavismusic.com
shantelcampbellrealestate.com
shopleborn13.com
topindiafree.com
v-visitors.net
qazwsxedcokmijn.com
parabis.net
terriesandelin.com
luxuryhomme.com
studyexpanse.com
ronoom.com
djjky.com
053hh.com
originbluei.com
baucishotel.com
33kkn.com
intrinsiqresearch.com
mariaescort-kiev.com
mymaguk.com
sponsored4u.com
crimsonclass.com
bataillenavale.com
searchtile.com
ze-stribrnych-struh.com
zenithalhype.com
modalpkv.com
bouisset-lafforgue.com
useupload.com
37r.net
autoankauf-muenster.com
bantinbongda.net
bilgius.com
brabustermagazine.com
indigrow.org
miicrosofts.net
mysmiletravel.com
selinasims.com
spellcubesapp.com
usa-faction.com
snn01.com
hope-kelley.com
bancodeprofissionais.com
zjccp99.com
liturgycreator.com
weedsmj.com
majorelenco.com
colcollect.com
androidnews-jp.com
hypoallergenicdogsnames.com
dailyupdatez.com
foodphotographyreviews.com
cricutcom-setup.com
chprowebdesign.com
katyrealty-kanepa.com
tasramar.com
bilgipinari.org
four-am.com
indiarepublicday.com
inquick-enbooks.com
iracmpi.com
kakaschoenen.com
lsm99flash.com
nana1255.com
ngen-niagara.com
technwzs.com
virtualonlinecasino1345.com
wallpapertop.net
nova-click.com
abeautifulcrazylife.com
diggmobile.com
denochemexicana.com
eventhalfkg.com
medcon-taiwan.com
life-himawari.com
myriamshomes.com
nightmarevue.com
allstarsru.com
bestofthebuckeyestate.com
bestofthefirststate.com
bestwireless7.com
declarationintermittent.com
findhereall.com
jingyou888.com
lsm99deal.com
lsm99galaxy.com
moozatech.com
nuagh.com
patliyo.com
philomenamagikz.net
rckouba.net
saturnunipessoallda.com
tallahasseefrolics.com
thematurehardcore.net
totalenvironment-inthatquietearth.com
velislavakaymakanova.com
vermontenergetic.com
sizam-design.com
kakakpintar.com
begorgeouslady.com
1800birks4u.com
2wheelstogo.com
6strip4you.com
bigdata-world.net
emailandco.net
gacapal.com
jharpost.com
krishnaastro.com
lsm99credit.com
mascalzonicampani.com
sitemapxml.org
thecityslums.net
topagh.com
flairnetwebdesign.com
bangkaeair.com
beneventocoupon.com
noternet.org
oqtive.com
smilebrightrx.com
decollage-etiquette.com
1millionbestdownloads.com
7658.info
bidbass.com
devlopworldtech.com
digitalmarketingrajkot.com
fluginfo.net
naqlafshk.com
passion-decouverte.com
playsirius.com
spacceleratorintl.com
stikyballs.com
top10way.com
yokidsyogurt.com
zszyhl.com
16firthcrescent.com
abogadolaboralistamd.com
apk2wap.com
aromacremeria.com
banparacard.com
bosmanraws.com
businessproviderblog.com
caltonosa.com
calvaryrevivalchurch.org
chastenedsoulwithabrokenheart.com
cheminotsgardcevennes.com
cooksspot.com
cqxzpt.com
deesywig.com
deltacartoonmaps.com
despixelsetdeshommes.com
duocoracaobrasileiro.com
fareshopbd.com
goodpainspills.com
kobisitecdn.com
makaigoods.com
mgs1454.com
piccadillyresidences.com
radiolaondafresca.com
rubendorf.com
searchengineimprov.com
sellmyhrvahome.com
shugahouseessentials.com
sonihullquad.com
subtractkilos.com
valeriekelmansky.com
vipasdigitalmarketing.com
voolivrerj.com
zeelonggroup.com
1015southrockhill.com
10x10b.com
111-online-casinos.com
191cb.com
3665arpentunitd.com
aitesonics.com
bag-shokunin.com
brightotech.com
communication-digitale-services.com
covoakland.org
dariaprimapack.com
freefortniteaccountss.com
gatebizglobal.com
global1entertainmentnews.com
greatytene.com
hiroshiwakita.com
iktodaypk.com
jahatsakong.com
meadowbrookgolfgroup.com
newsbharati.net
platinumstudiosdesign.com
slotxogamesplay.com
strikestaruk.com
trucosdefortnite.com
ufabetrune.com
weddedtowhitmore.com
12940brycecanyonunitb.com
1311dietrichoaks.com
2monarchtraceunit303.com
601legendhill.com
850elaine.com
adieusolasomade.com
andora-ke.com
bestslotxogames.com
cannagomcallen.com
endlesslyhot.com
iestpjva.com
ouqprint.com
pwmaplefest.com
qtylmr.com
rb88betting.com
buscadogues.com
1007macfm.com
born-wild.com
growthinvests.com
promocode-casino.com
proyectogalgoargentina.com
wbthompson-art.com
whitemountainwheels.com
7thavehvl.com
developmethis.com
funkydogbowties.com
travelodgegrandjunction.com
gao-town.com
globalmarketsuite.com
blogshippo.com
hdbka.com
proboards67.com
outletonline-michaelkors.com
kalkis-research.com
thuthuatit.net
buckcash.com
hollistercanada.com
docterror.com
asadart.com
vmayke.org
erwincomputers.com
dirimart.org
okkii.com
loteriasdecehegin.com
mountanalog.com
healingtaobritain.com
ttxmonitor.com
bamthemes.com
nwordpress.com
11bolabonanza.com
avgo.top