Investigadores espa?oles descubren el truco que usan las IA para sacar tan buenas notas: ¡°Es verdadera kriptonita¡±
Elon Musk acaba de anunciar Grok 3, de su empresa xAI, y ya hay pruebas que dicen que es el nuevo mejor chatbot. Pero una nueva investigaci¨®n demuestra que los tests tienen muchas limitaciones

¡°Grok 3 es la IA m¨¢s inteligente del mundo¡±, lanz¨® este martes la cuenta de X de Grok. Elon Musk, due?o de la empresa que lo desarrolla, xAI, estuvo todo el d¨ªa repitiendo mensajes sobre c¨®mo Grok es ¡°el mejor chatbot del mundo¡± o que ¡°est¨¢ en la cima del mundo¡±. Horas antes Sam Altman, de ChatGPT, hab¨ªa escrito: ¡°GPT-4.5 ha sido, para los primeros testadores m¨¢s exigentes, una experiencia m¨¢s cercana a una IA con sentido com¨²n de lo que esperaba¡±.
nice to meet you pic.twitter.com/fk1EOtSVFm
— Grok (@grok) February 18, 2025
Muchas de estas afirmaciones son puro marketing. Los chatbots de IA son un campo hoy extremadamente competitivo y decir que uno es el mejor atrae mucha inversi¨®n. Pero tambi¨¦n hay un pu?ado de indicadores de referencia (llamados benchmarks en ingl¨¦s) que sirven de prueba para comprobar qu¨¦ modelos de IA responden mejor en tests similares. Si no est¨¢s arriba en esas pruebas, no eres nadie.
¡°Los n¨²meros de Grok 3 en su lanzamiento son un ejemplo perfecto de los problemas de la evaluaci¨®n actual¡±, dice Julio Gonzalo, catedr¨¢tico de Lenguajes y Sistemas Inform¨¢ticos de la UNED. ¡°Si hay mucha presi¨®n competitiva, hay exceso de atenci¨®n sobre los benchmarks, y a las empresas les resultar¨ªa f¨¢cil manipularlos, as¨ª que no podemos fiarnos de los n¨²meros que nos reportan¡±. Junto a otros dos investigadores espa?oles, Gonzalo ha probado un truco sencillo pero implacable para comprobar la eficacia de algunos de estos tests m¨¢s prominentes. El objetivo b¨¢sico era saber si los modelos le¨ªan y respond¨ªan como cualquier estudiante o, en cambio, solo buscaban la respuesta en el ingente cuerpo de datos que se ha usado para su entreno.
El resultado es que son a¨²n sobre todo las m¨¢quinas m¨¢s empollonas nunca antes ideadas: ¡°En su primera fase de entrenamiento, en la que aprenden el lenguaje, el procedimiento es de pesca de arrastre: se leen, esencialmente, todo el contenido online. Por tanto, los desarrolladores saben que la probabilidad de que hayan visto la respuesta a un examen disponible online es muy alta¡±, explica Eva S¨¢nchez Salido, coautora e investigadora en la UNED.
C¨®mo liar a los modelos
?Qu¨¦ detalle han cambiado en el experimento para enga?ar a los modelos? Los investigadores han sustituido la respuesta correcta por una general que dice: ¡°Ninguna de las otras¡±. As¨ª, el modelo deb¨ªa entender la pregunta y razonar, no solo encontrar la respuesta m¨¢s probable en su memoria. ¡°La respuesta acertada tiene un vocabulario completamente desconectado de la pregunta, lo que le obliga a razonar sobre cada una de las otras respuestas posibles y descartarlas, es una variaci¨®n mucho m¨¢s exigente¡±, dice Gonzalo. ¡°Es verdadera kriptonita para los modelos¡±, a?ade.
Seg¨²n el art¨ªculo, ¡°los resultados muestran que todos los modelos pierden precisi¨®n de forma notable con nuestra variaci¨®n propuesta, con una ca¨ªda promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10 % y el 93 % seg¨²n el modelo¡±, escriben los investigadores en el texto.
Este tipo de variaciones ya se hab¨ªa probado sobre todo con las preguntas, pero ha sido este cambio en las respuestas el que ha dado resultados m¨¢s claros. ¡°Este cambio tan simple de repente quita un velo a la experimentaci¨®n con benchmarks y nos permite ver el progreso real en las capacidades de razonamiento aproximado de los sistemas sin el ruido que produce el acierto por memorizaci¨®n¡±, dice Guillermo Marco, coautor del experimento e investigador en la UNED.
Este cambio no prueba que las IA sean de repente in¨²tiles, pero s¨ª que su capacidad de razonamiento estaba hinchada y que evoluciona de manera m¨¢s lenta que los departamentos de marketing y expertos en dar bombo pretenden: ¡°Nuestros resultados demuestran que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalizaci¨®n escasa¡±, dice Gonzalo. ¡°En otras palabras, siguen contestando de o¨ªdas, intuitivamente, y siguen siendo, en esencia, s¨²percu?ados que lo han le¨ªdo todo, pero no han asimilado nada¡±.
El debate sobre las limitaciones de los benchmarks est¨¢ m¨¢s extendido de lo que parece. Este mismo martes, uno de los mayores divulgadores sobre IA, Ethan Mollick, ped¨ªa tests m¨¢s fiables.
Another thing Grok 3 highlights is the urgent need for better batteries of tests and independent testing authorities.
— Ethan Mollick (@emollick) February 18, 2025
Public benchmarks are both "meh" and saturated, leaving a lot of AI testing to be like food reviews, based on taste. If AI is critical to to work, we need more.
Hace unas semanas sali¨® otro test llamado ¡°examen definitivo de humanidad¡± que, de nuevo, los modelos parecen superar r¨¢pido m¨¢s r¨¢pido de lo previsto. Son preguntas m¨¢s dif¨ªciles, de nivel doctorado, y con unas respuestas que en principio no se encuentran online. Un problema a?adido sobre esta prueba es que el corrector es otro modelo: ChatGPT-o3 mini. Tampoco parece la soluci¨®n a los problemas de medici¨®n: ¡°Es mucho m¨¢s importante dise?ar bien los ex¨¢menes, para que los resultados sean interpretables, que inventar ex¨¢menes m¨¢s dif¨ªciles como si los chatbots ya tuvieran el nivel de graduados y hubiera que ponerles a hacer una tesis doctoral¡±, dice Gonzalo.
Tambi¨¦n es sustancial la diferencia entre lenguas. Estos modelos sacan mejor nota en ingl¨¦s. Los investigadores han probado con el espa?ol para comparar y sale ya peor. En lenguas m¨¢s minoritarias los resultados deber¨ªan ser a¨²n m¨¢s flojos: ¡°El trabajo lo hemos hecho dentro del proyecto Odesia, un convenio entre Red.es y la UNED para medir la distancia entre el ingl¨¦s y el espa?ol en IA¡±, dice Gonzalo. ¡°Hemos detectado una tendencia muy clara: cuanto peor es el modelo (en general, cuando son cerebros artificiales con menos neuronas), m¨¢s se nota la diferencia entre espa?ol y ingl¨¦s¡±. Esta diferencia tiene m¨¢s importancia de lo que parece porque los modelos de tama?o reducido se pueden instalar localmente en dispositivos y eso garantiza la privacidad de los datos. ¡°As¨ª se acaban usando modelos que funcionan mucho peor en espa?ol que ChatGPT o Claude¡±, a?ade Gonzalo.
Todo esto no significa que los modelos de IA tengan un techo claro. Los modelos de lenguaje puros s¨ª que parecen tener un l¨ªmite, pero los nuevos de razonamiento son m¨¢s completos que los anteriores. ¡°Por ejemplo, ChatGPT-o3 mini, aunque baja mucho su rendimiento, es el ¨²nico que consigue aprobar [uno de los benchmarks]. Se est¨¢n buscando nuevas t¨¦cnicas de superar el funcionamiento de los modelos de lenguaje¡±, dice Gonzalo. En las pruebas de los investigadores, junto al ¨²nico aprobado pelado de GPT-o3 mini, el otro modelo que mejor queda es DeepSeek R1-70b, porque baja menos que el resto su rendimiento con el nuevo test.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.
Sobre la firma
