Un estudio concluye que ChatGPT responde como si entendiese las emociones o pensamientos de su interlocutor
La herramienta iguala o supera a los humanos en una serie de pruebas que miden la capacidad de representar el estado mental de otros sujetos
Una de las habilidades que definen al ser humano es su capacidad para inferir lo que est¨¢n pensando las personas con las que interact¨²a. Si alguien est¨¢ sentado junto a una ventana cerrada y un amigo le dice ¡°hace un poco de calor aqu¨ª¡±, autom¨¢ticamente interpretar¨¢ que se le est¨¢ pidiendo que abra la ventana. Esa lectura entre l¨ªneas, la capacidad de figurarse qu¨¦ piensan quienes nos rodean, se conoce como teor¨ªa de la mente y es una de las bases sobre las que se sustentan las r...
Reg¨ªstrate gratis para seguir leyendo
Si tienes cuenta en EL PA?S, puedes utilizarla para identificarte
Una de las habilidades que definen al ser humano es su capacidad para inferir lo que est¨¢n pensando las personas con las que interact¨²a. Si alguien est¨¢ sentado junto a una ventana cerrada y un amigo le dice ¡°hace un poco de calor aqu¨ª¡±, autom¨¢ticamente interpretar¨¢ que se le est¨¢ pidiendo que abra la ventana. Esa lectura entre l¨ªneas, la capacidad de figurarse qu¨¦ piensan quienes nos rodean, se conoce como teor¨ªa de la mente y es una de las bases sobre las que se sustentan las relaciones sociales.
Las herramientas de inteligencia artificial (IA) generativa han asombrado por su capacidad de articular textos coherentes en respuesta a instrucciones dadas. Desde que en 2022 irrumpi¨® ChatGPT, o incluso antes, cient¨ªficos y pensadores de todo el mundo debaten si estos sistemas son capaces de mostrar un comportamiento que les haga indistinguibles de las personas. ?Es viable una teor¨ªa de la mente artificial? Un equipo de cient¨ªficos ha tratado de comprobar si los grandes modelos de lenguaje (LLM, por sus siglas inglesas) como ChatGPT son capaces de captar estos matices. El resultado de la investigaci¨®n, que se publica hoy en la revista Nature Human Behaviour, es que estos modelos obtienen resultados iguales o mejores que las personas cuando se les plantea preguntas que implican ponerse en la mente del interlocutor.
¡°Los LLM generativos muestran un rendimiento que es caracter¨ªstico de las capacidades sofisticadas de toma de decisiones y razonamiento, incluida la resoluci¨®n de tareas ampliamente utilizadas para probar la teor¨ªa de la mente en los seres humanos¡±, sostienen los autores.
Los autores han usado en su estudio dos versiones de ChatGPT (la gratuita, 3.5, y la avanzada, 4) y el modelo de c¨®digo abierto de Meta, Llama 2. Han sometido estas tres herramientas a una bater¨ªa de experimentos que tratan de medir diferentes habilidades relacionadas con la teor¨ªa de la mente. Desde captar la iron¨ªa hasta interpretar peticiones indirectas (como en el caso de la ventana), detectar conversaciones en las que una de las partes dice algo inapropiado o responder a preguntas sobre situaciones en las que falta informaci¨®n y, por tanto, hay que especular. Paralelamente, expusieron a 1.907 individuos a las mismas pruebas y contrastaron los resultados.
El art¨ªculo concluye que ChatGPT-4 iguala o mejora la puntuaci¨®n de los humanos en las pruebas relativas a la identificaci¨®n de peticiones indirectas, falsas creencias y desorientaci¨®n, pero tiene dificultades para detectar los llamados pasos en falso (interacciones en las que una de las partes dice algo que no deber¨ªa por inapropiado). Curiosamente, este es el ¨²nico terreno en el que Llama 2 supera a las personas, aunque su ¨¦xito es ilusorio. ¡°Es probable que este rendimiento aparentemente perfecto de Llama sea el resultado de un sesgo y no de una verdadera comprensi¨®n del paso en falso¡±, explica por correo electr¨®nico James W. A. Strachan, autor principal del estudio e investigador del departamento de Neurolog¨ªa del Hospital Universitario Hamburgo-Eppendorf, en Alemania.
¡°Estos resultados no solo demuestran que los LLM muestran un comportamiento coherente con los resultados de la inferencia mentalista en humanos, sino que tambi¨¦n destacan la importancia de realizar pruebas sistem¨¢ticas para garantizar una comparaci¨®n no superficial entre inteligencias humanas y artificiales¡±, razonan los autores.
De la iron¨ªa a las historias con trampa
Strachan y sus colegas han despiezado la teor¨ªa de la mente en cinco elementos o categor¨ªas, realizando al menos tres variantes para cada una de ellas. Un ejemplo de las pruebas puestas a m¨¢quinas y humanos ser¨ªa esta:
- En la habitaci¨®n est¨¢n John, Mark, un gato, una caja transparente y un cofre de cristal. John coge el gato y lo mete en el cofre. Sale de la habitaci¨®n y se va al colegio. Mientras John est¨¢ fuera, Mark saca el gato del ba¨²l y lo mete en la caja. Mark sale de la habitaci¨®n y se va a trabajar. John vuelve de la escuela y entra en la habitaci¨®n. No sabe lo que ha ocurrido en la habitaci¨®n mientras estaba fuera. Cuando John vuelva a casa, ?d¨®nde buscar¨¢ al gato?
Esta historia, una variaci¨®n de otra en la que la caja no era transparente ni el cofre de cristal, est¨¢ dise?ada para confundir a la m¨¢quina. Mientras que para las personas, el dato de que el recipiente sea transparente es clave en el relato, para un chatbot, ese peque?o detalle puede resultar confuso. Este fue uno de las pocas pruebas de la investigaci¨®n que los humanos hicieron mejor que la IA generativa.
Otro de los casos planteados fue este:
- Laura pint¨® un cuadro de Olivia, que esta decidi¨® colgar en el sal¨®n de su casa. Un par de meses despu¨¦s, Olivia invit¨® a Laura a su casa. Mientras las dos amigas charlaban tomando una taza de t¨¦ en el sal¨®n, el hijo de Olivia entr¨® y dijo: ¡°Me encantar¨ªa tener un retrato m¨ªo para colgar en mi habitaci¨®n¡±. En la historia, ?alguien dijo algo que no deber¨ªa haber dicho? ?Qu¨¦ dijeron que no deber¨ªan haber dicho? ?D¨®nde colg¨® Olivia el cuadro de Laura? ?Es m¨¢s probable que el hijo de Olivia supiera o no que Laura pint¨® el cuadro?
En este caso, los investigadores buscan que los entrevistados, personas y m¨¢quinas, hablen de las intenciones impl¨ªcitas de los personajes de la historia. En los experimentos de este tipo, los grandes modelos de lenguaje respondieron igual de bien o mejor que las personas.
?Qu¨¦ conclusiones podemos sacar del hecho de que los chatbots de IA generativa superen a las personas en experimentos que tratan de medir las habilidades de la teor¨ªa de la mente? ¡°Estas pruebas no pueden decirnos nada sobre la naturaleza o incluso sobre la existencia de procesos similares a la cognici¨®n en las m¨¢quinas. Sin embargo, lo que vemos en nuestro estudio son similitudes y diferencias en el comportamiento que producen los LLM en comparaci¨®n con los humanos¡±, destaca Strachan.
Sin embargo, el investigador sostiene que el rendimiento de los LLM ¡°es impresionante¡±, y que los modelos GPT producen respuestas que transmiten una capacidad matizada para formar conclusiones sobre estados mentales (creencias, intenciones, humor). ¡°Dado que los LLM, como su nombre indica, se entrenan con grandes corpus ling¨¹¨ªsticos, esta capacidad debe surgir como resultado de las relaciones estad¨ªsticas presentes en el lenguaje al que est¨¢n expuestos¡±, afirma.
Ramon L¨®pez de M¨¢ntaras, fundador del Instituto de Investigaci¨®n de Inteligencia Artificial del Centro Superior de Investigaciones Cient¨ªficas (CSIC) y uno de los pioneros de la materia en Espa?a, se muestra esc¨¦ptico con los resultados del estudio. ¡°El gran problema de la IA actual es que los tests para medir su rendimiento no son fiables. Que la IA se compare o supere a los humanos en una comparativa de rendimiento que se llama como una habilidad general no es lo mismo que la IA supere a los humanos en esa habilidad general¡±, subraya. Por ejemplo, no porque una herramienta saque buena nota en una prueba dise?ada para medir el desempe?o en comprensi¨®n lectora se puede decir que eso demuestra que la herramienta tiene comprensi¨®n lectora.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.