Por qu�� es tan peligroso que la inteligencia artificial aprenda a mentir: ��Nos enga?ar��n como hacen los ricos��

Un nuevo art��culo cient��fico repasa los ejemplos de m��quinas que saben c��mo hacer trampas y cu��les son sus amenazas

Una IA de Meta llamada Cicero enga?�� a sus rivales para ganar en el juego de estrategia Diplomacia. En la foto, Mark Zuckerberg, presidente ejecutivo de Meta, presenta los nuevos proyectos en IA de su compa?��a en la conferencia Meta Connect en Menlo Park (California) el pasado septiembre.Carlos Barria (REUTERS)

Jordi P��rez Colom��

11 may 2024 - 05:19CEST

Un jugador de p��ker tiene malas cartas pero hace la mayor apuesta. El resto de jugadores se asusta por el farol y concede la victoria. Un comprador quiere negociar por un producto, pero no muestra inter��s. Primero mira otras cosas y pregunta. Luego, sin mucha intenci��n, pide por lo que realmente quiere para sacar un precio m��s barato. Estos dos ejemplos reales no son de humanos, sino de modelos hechos con inteligencia artificial (IA). Un nuevo art��culo cient��fico titulado Los enga?os de la IA: un estudio de ejemplos, riesgos y soluciones potenciales en la revista Patterns analiza los casos conocidos de modelos que han mentido, disimulado o adulado a humanos para lograr sus objetivos. Los robots no son conscientes de nada y solo buscan la mejor manera de conseguir lo que buscan, pero los autores creen que estos enga?os incipientes auguran p��simos resultados si la legislaci��n no limita las opciones de la IA.

��En este momento, mi mayor temor sobre el enga?o de la IA es que una IA s��per inteligente aut��noma utilice sus capacidades de enga?o para formar una coalici��n de aliados humanos cada vez m��s numerosa y eventualmente use esta coalici��n para alcanzar el poder, en la b��squeda a largo plazo de un objetivo misterioso que no se conocer��a hasta despu��s del hecho��, dice Peter S. Park, investigador postdoctoral en Seguridad Existencial de la IA del Massachusetts Institute of Technology (MIT) y uno de los autores principales del art��culo.

Ese gran temor de Park es un supuesto, pero ya lo hemos visto en una IA programada para un juego. Meta anunci�� en 2022 que su modelo Cicero hab��a ganado a rivales humanos al Diplomacia, un juego de estrategia que mezcla detalles del Risk, el p��ker y el programa de televisi��n Supervivientes, en palabras de la compa?��a. Como en la diplomacia real, uno de los recursos es mentir y disimular. Empleados de Meta advirtieron que cuando Cicero ment��a, las jugadas le sal��an peor y lo programaron para ser m��s honesto. Pero no lo era en realidad.

Peter S. Park y sus coautores tambi��n pusieron a prueba la honestidad de Cicero. ��Nos toc�� a los autores del art��culo corregir la falsa afirmaci��n de Meta sobre la supuesta honestidad de Cicero que hab��a sido publicada en Science��. El contexto pol��tico del juego Diplomacia es de mucho menor riesgo que los contextos reales con sus elecciones y conflictos militares. Pero hay que tener en cuenta tres hechos, dice Park: ��Primero, Meta entren�� con ��xito a su IA para sobresalir en la b��squeda de poder pol��tico, aunque en un juego. Segundo, Meta intent��, pero no logr��, entrenar esa IA para que fuera honesta. Y tercero, nos toc�� a cient��ficos independientes externos para, mucho despu��s del hecho, desmentir la falsedad de Meta de que su IA buscadora de poder supuestamente era honesta. La combinaci��n de estos tres hechos es, en mi opini��n, una causa suficiente para preocuparse��, seg��n Park.

C��mo mienten en realidad

Los investigadores creen que hay varios modos en los que modelos espec��ficos de IA han demostrado que puede enga?ar con eficacia: pueden manipular como en Diplomacia, amagar con decir que har�� algo a sabiendas de que no lo har��, faroles como en el p��ker, regatear en negociaciones, hacerse el muerto para no ser detectado o enga?ar a revisores humanos para que crean que la IA ha hecho lo que deb��a cuando no lo ha cumplido.

No todos los tipos de enga?o implican este tipo de conocimiento. A veces, e involuntariamente, los modelos de IA son ��aduladores�� y simplemente siguen la opini��n que apunta cada usuario en sus preguntas: ��La adulaci��n podr��a llevar a creencias falsas persistentes en humanos. Las afirmaciones aduladoras est��n espec��ficamente dise?adas para atraer al usuario. Cuando un usuario se encuentra con estas respuestas, es posible que tenga menos probabilidades de verificar los hechos. Esto a largo plazo podr��a resultar creencias alejadas de la verdad��, escriben los autores en el art��culo.

Nadie sabe con certeza c��mo hacer que estos modelos no enga?en, dice Park: ��Con nuestro nivel actual de comprensi��n cient��fica, nadie puede entrenar de manera fiable a los grandes modelos de lenguaje para que no enga?en��. Adem��s, hay muchos ingenieros en muchas empresas dedicados a crear modelos distintos y m��s potentes. No todos tienen el mismo inter��s inicial en que sus robots sean honestos: ��Algunos ingenieros se toman el riesgo del enga?o de la IA muy en serio, hasta el punto de abogar por medidas de seguridad en IA o implementarlas. Otros ingenieros no se lo toman tan en serio y creen que aplicar un proceso de prueba y error ser�� suficiente para avanzar hacia una IA segura y no mentirosa. Y a��n hay otros que se niegan incluso a aceptar que el riesgo de enga?o de la IA exista��, dice Park.

Lo usar��n para aumentar su poder

En el art��culo comparan una IA s��per inteligente a c��mo los ricos aspiran a obtener nuevas cuotas de poder: ��A lo largo de la historia, los actores ricos han utilizado el enga?o para aumentar su poder��, escriben. El modo en que Park lo aclara sirve para entender mejor c��mo de subrepticio puede ser el rol de una IA que quiera ganar poder: ��Las empresas de IA est��n en una carrera sin control para crear una IA s��per inteligente que supere a los humanos en la mayor��a de las capacidades econ��micas y estrat��gicamente relevantes. Una IA de este tipo, al igual que los ricos, ser��a experta en llevar a cabo planes a largo plazo al servicio de buscar poder de manera enga?osa sobre varias partes de la sociedad, como influir a pol��ticos con informaci��n incompleta o falsa, financiar desinformaci��n en los medios o investigadores, y evadir la responsabilidad usando las leyes. Al igual que el dinero se traduce en poder, muchas capacidades de la IA, como el enga?o, tambi��n se traducen en poder��, explica Park.

No todos los acad��micos comparten este nivel de temor. El catedr��tico de la Universidad de Edimburgo Michael Rovatsos, en declaraciones a SMC Espa?a, cree que los peligros a largo plazo son demasiado especulativos: ��No estoy tan convencido de que la capacidad de enga?o cree un riesgo de p��rdida de control sobre los sistemas de IA, si se aplica el rigor adecuado en su dise?o; el verdadero problema es que actualmente no es as�� y los sistemas se lanzan al mercado sin esas comprobaciones de seguridad. El debate sobre las implicaciones a largo plazo de las capacidades enga?osas que plantea el art��culo es muy especulativo y hace muchas suposiciones adicionales sobre cosas que pueden ocurrir o no��.

La soluci��n que plantea el art��culo para que estos sistemas no superen a sus creadores es la legislaci��n. La UE asigna a cada sistema de IA uno de estos cuatro niveles de riesgo: m��nimo, limitado, alto e inaceptable. Los sistemas con riesgo inaceptable est��n prohibidos, mientras que los sistemas con alto riesgo est��n sujetos a requisitos especiales. ��Defendemos que el enga?o por parte de la IA presenta una amplia gama de riesgos para la sociedad, as�� que deber��an tratarse por defecto como de alto riesgo o riesgo inaceptable��, dice Park.

Puedes seguir a EL PA?S Tecnolog��a en Facebook y X o apuntarte aqu�� para recibir nuestra newsletter semanal.

Tu suscripci��n se est�� usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci��n?

A?adir usuario Continuar leyendo aqu��

Si contin��as leyendo en este dispositivo, no se podr�� leer en el otro.

?Por qu�� est��s viendo esto?

Flecha

Tu suscripci��n se est�� usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci��n a la modalidad Premium, as�� podr��s a?adir otro usuario. Cada uno acceder�� con su propia cuenta de email, lo que os permitir�� personalizar vuestra experiencia en EL PA?S.

?Tienes una suscripci��n de empresa? Accede aqu�� para contratar m��s cuentas.

En el caso de no saber qui��n est�� usando tu cuenta, te recomendamos cambiar tu contrase?a aqu��.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar�� en tu dispositivo y en el de la otra persona que est�� usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu�� los t��rminos y condiciones de la suscripci��n digital.

Sobre la firma

Jordi P��rez Colom��

Es reportero de Tecnolog��a, preocupado por las consecuencias sociales que provoca internet. Escribe cada semana una newsletter sobre los jaleos que provocan estos cambios. Fue premio Jos�� Manuel Porquet 2012 e iRedes Letras Enredadas 2014. Ha dado y da clases en cinco universidades espa?olas. Entre otros estudios, es fil��logo italiano.