Investigadores espa?oles descubren el truco que usan las IA para sacar tan buenas notas: ��Es verdadera kriptonita��

Elon Musk acaba de anunciar Grok 3, de su empresa xAI, y ya hay pruebas que dicen que es el nuevo mejor chatbot. Pero una nueva investigaci��n demuestra que los tests tienen muchas limitaciones

Elon Musk present�� su modelo de IA Grok 3, de xAI. En la imagen, Musk en Washington el pasado 13 de febrero.Nathan Howard (REUTERS)

Jordi P��rez Colom��

20 feb 2025 - 05:20CET

��Grok 3 es la IA m��s inteligente del mundo��, lanz�� este martes la cuenta de X de Grok. Elon Musk, due?o de la empresa que lo desarrolla, xAI, estuvo todo el d��a repitiendo mensajes sobre c��mo Grok es ��el mejor chatbot del mundo�� o que ��est�� en la cima del mundo��. Horas antes Sam Altman, de ChatGPT, hab��a escrito: ��GPT-4.5 ha sido, para los primeros testadores m��s exigentes, una experiencia m��s cercana a una IA con sentido com��n de lo que esperaba��.

nice to meet you pic.twitter.com/fk1EOtSVFm
— Grok (@grok) February 18, 2025

Muchas de estas afirmaciones son puro marketing. Los chatbots de IA son un campo hoy extremadamente competitivo y decir que uno es el mejor atrae mucha inversi��n. Pero tambi��n hay un pu?ado de indicadores de referencia (llamados benchmarks en ingl��s) que sirven de prueba para comprobar qu�� modelos de IA responden mejor en tests similares. Si no est��s arriba en esas pruebas, no eres nadie.

��Los n��meros de Grok 3 en su lanzamiento son un ejemplo perfecto de los problemas de la evaluaci��n actual��, dice Julio Gonzalo, catedr��tico de Lenguajes y Sistemas Inform��ticos de la UNED. ��Si hay mucha presi��n competitiva, hay exceso de atenci��n sobre los benchmarks, y a las empresas les resultar��a f��cil manipularlos, as�� que no podemos fiarnos de los n��meros que nos reportan��. Junto a otros dos investigadores espa?oles, Gonzalo ha probado un truco sencillo pero implacable para comprobar la eficacia de algunos de estos tests m��s prominentes. El objetivo b��sico era saber si los modelos le��an y respond��an como cualquier estudiante o, en cambio, solo buscaban la respuesta en el ingente cuerpo de datos que se ha usado para su entreno.

El resultado es que son a��n sobre todo las m��quinas m��s empollonas nunca antes ideadas: ��En su primera fase de entrenamiento, en la que aprenden el lenguaje, el procedimiento es de pesca de arrastre: se leen, esencialmente, todo el contenido online. Por tanto, los desarrolladores saben que la probabilidad de que hayan visto la respuesta a un examen disponible online es muy alta��, explica Eva S��nchez Salido, coautora e investigadora en la UNED.

C��mo liar a los modelos

?Qu�� detalle han cambiado en el experimento para enga?ar a los modelos? Los investigadores han sustituido la respuesta correcta por una general que dice: ��Ninguna de las otras��. As��, el modelo deb��a entender la pregunta y razonar, no solo encontrar la respuesta m��s probable en su memoria. ��La respuesta acertada tiene un vocabulario completamente desconectado de la pregunta, lo que le obliga a razonar sobre cada una de las otras respuestas posibles y descartarlas, es una variaci��n mucho m��s exigente��, dice Gonzalo. ��Es verdadera kriptonita para los modelos��, a?ade.

Seg��n el art��culo, ��los resultados muestran que todos los modelos pierden precisi��n de forma notable con nuestra variaci��n propuesta, con una ca��da promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10 % y el 93 % seg��n el modelo��, escriben los investigadores en el texto.

Este tipo de variaciones ya se hab��a probado sobre todo con las preguntas, pero ha sido este cambio en las respuestas el que ha dado resultados m��s claros. ��Este cambio tan simple de repente quita un velo a la experimentaci��n con benchmarks y nos permite ver el progreso real en las capacidades de razonamiento aproximado de los sistemas sin el ruido que produce el acierto por memorizaci��n��, dice Guillermo Marco, coautor del experimento e investigador en la UNED.

Este cambio no prueba que las IA sean de repente in��tiles, pero s�� que su capacidad de razonamiento estaba hinchada y que evoluciona de manera m��s lenta que los departamentos de marketing y expertos en dar bombo pretenden: ��Nuestros resultados demuestran que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalizaci��n escasa��, dice Gonzalo. ��En otras palabras, siguen contestando de o��das, intuitivamente, y siguen siendo, en esencia, s��percu?ados que lo han le��do todo, pero no han asimilado nada��.

El debate sobre las limitaciones de los benchmarks est�� m��s extendido de lo que parece. Este mismo martes, uno de los mayores divulgadores sobre IA, Ethan Mollick, ped��a tests m��s fiables.

Another thing Grok 3 highlights is the urgent need for better batteries of tests and independent testing authorities.

Public benchmarks are both "meh" and saturated, leaving a lot of AI testing to be like food reviews, based on taste. If AI is critical to to work, we need more.
— Ethan Mollick (@emollick) February 18, 2025

Hace unas semanas sali�� otro test llamado ��examen definitivo de humanidad�� que, de nuevo, los modelos parecen superar r��pido m��s r��pido de lo previsto. Son preguntas m��s dif��ciles, de nivel doctorado, y con unas respuestas que en principio no se encuentran online. Un problema a?adido sobre esta prueba es que el corrector es otro modelo: ChatGPT-o3 mini. Tampoco parece la soluci��n a los problemas de medici��n: ��Es mucho m��s importante dise?ar bien los ex��menes, para que los resultados sean interpretables, que inventar ex��menes m��s dif��ciles como si los chatbots ya tuvieran el nivel de graduados y hubiera que ponerles a hacer una tesis doctoral��, dice Gonzalo.

Tambi��n es sustancial la diferencia entre lenguas. Estos modelos sacan mejor nota en ingl��s. Los investigadores han probado con el espa?ol para comparar y sale ya peor. En lenguas m��s minoritarias los resultados deber��an ser a��n m��s flojos: ��El trabajo lo hemos hecho dentro del proyecto Odesia, un convenio entre Red.es y la UNED para medir la distancia entre el ingl��s y el espa?ol en IA��, dice Gonzalo. ��Hemos detectado una tendencia muy clara: cuanto peor es el modelo (en general, cuando son cerebros artificiales con menos neuronas), m��s se nota la diferencia entre espa?ol y ingl��s��. Esta diferencia tiene m��s importancia de lo que parece porque los modelos de tama?o reducido se pueden instalar localmente en dispositivos y eso garantiza la privacidad de los datos. ��As�� se acaban usando modelos que funcionan mucho peor en espa?ol que ChatGPT o Claude��, a?ade Gonzalo.

Todo esto no significa que los modelos de IA tengan un techo claro. Los modelos de lenguaje puros s�� que parecen tener un l��mite, pero los nuevos de razonamiento son m��s completos que los anteriores. ��Por ejemplo, ChatGPT-o3 mini, aunque baja mucho su rendimiento, es el ��nico que consigue aprobar [uno de los benchmarks]. Se est��n buscando nuevas t��cnicas de superar el funcionamiento de los modelos de lenguaje��, dice Gonzalo. En las pruebas de los investigadores, junto al ��nico aprobado pelado de GPT-o3 mini, el otro modelo que mejor queda es DeepSeek R1-70b, porque baja menos que el resto su rendimiento con el nuevo test.

Tu suscripci��n se est�� usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci��n?

A?adir usuario Continuar leyendo aqu��

Si contin��as leyendo en este dispositivo, no se podr�� leer en el otro.

?Por qu�� est��s viendo esto?

Flecha

Tu suscripci��n se est�� usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci��n a la modalidad Premium, as�� podr��s a?adir otro usuario. Cada uno acceder�� con su propia cuenta de email, lo que os permitir�� personalizar vuestra experiencia en EL PA?S.

?Tienes una suscripci��n de empresa? Accede aqu�� para contratar m��s cuentas.

En el caso de no saber qui��n est�� usando tu cuenta, te recomendamos cambiar tu contrase?a aqu��.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar�� en tu dispositivo y en el de la otra persona que est�� usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu�� los t��rminos y condiciones de la suscripci��n digital.

Sobre la firma

Jordi P��rez Colom��

Es reportero de Tecnolog��a, preocupado por las consecuencias sociales que provoca internet. Escribe cada semana una newsletter sobre los jaleos que provocan estos cambios. Fue premio Jos�� Manuel Porquet 2012 e iRedes Letras Enredadas 2014. Ha dado y da clases en cinco universidades espa?olas. Entre otros estudios, es fil��logo italiano.