Por qu¨¦ es tan peligroso que la inteligencia artificial aprenda a mentir: ¡°Nos enga?ar¨¢n como hacen los ricos¡±
Un nuevo art¨ªculo cient¨ªfico repasa los ejemplos de m¨¢quinas que saben c¨®mo hacer trampas y cu¨¢les son sus amenazas
Un jugador de p¨®ker tiene malas cartas pero hace la mayor apuesta. El resto de jugadores se asusta por el farol y concede la victoria. Un comprador quiere negociar por un producto, pero no muestra inter¨¦s. Primero mira otras cosas y pregunta. Luego, sin mucha intenci¨®n, pide por lo que realmente quiere para sacar un precio m¨¢s barato. Estos dos ejemplos reales no son de humanos, sino de modelos hechos con inteligencia artificial (IA). Un nuevo art¨ªculo cient¨ªfico titulado Los enga?os de la IA: un estudio de ejemplos, riesgos y soluciones potenciales en la revista Patterns analiza los casos conocidos de modelos que han mentido, disimulado o adulado a humanos para lograr sus objetivos. Los robots no son conscientes de nada y solo buscan la mejor manera de conseguir lo que buscan, pero los autores creen que estos enga?os incipientes auguran p¨¦simos resultados si la legislaci¨®n no limita las opciones de la IA.
¡°En este momento, mi mayor temor sobre el enga?o de la IA es que una IA s¨²per inteligente aut¨®noma utilice sus capacidades de enga?o para formar una coalici¨®n de aliados humanos cada vez m¨¢s numerosa y eventualmente use esta coalici¨®n para alcanzar el poder, en la b¨²squeda a largo plazo de un objetivo misterioso que no se conocer¨ªa hasta despu¨¦s del hecho¡±, dice Peter S. Park, investigador postdoctoral en Seguridad Existencial de la IA del Massachusetts Institute of Technology (MIT) y uno de los autores principales del art¨ªculo.
Ese gran temor de Park es un supuesto, pero ya lo hemos visto en una IA programada para un juego. Meta anunci¨® en 2022 que su modelo Cicero hab¨ªa ganado a rivales humanos al Diplomacia, un juego de estrategia que mezcla detalles del Risk, el p¨®ker y el programa de televisi¨®n Supervivientes, en palabras de la compa?¨ªa. Como en la diplomacia real, uno de los recursos es mentir y disimular. Empleados de Meta advirtieron que cuando Cicero ment¨ªa, las jugadas le sal¨ªan peor y lo programaron para ser m¨¢s honesto. Pero no lo era en realidad.
Peter S. Park y sus coautores tambi¨¦n pusieron a prueba la honestidad de Cicero. ¡°Nos toc¨® a los autores del art¨ªculo corregir la falsa afirmaci¨®n de Meta sobre la supuesta honestidad de Cicero que hab¨ªa sido publicada en Science¡±. El contexto pol¨ªtico del juego Diplomacia es de mucho menor riesgo que los contextos reales con sus elecciones y conflictos militares. Pero hay que tener en cuenta tres hechos, dice Park: ¡°Primero, Meta entren¨® con ¨¦xito a su IA para sobresalir en la b¨²squeda de poder pol¨ªtico, aunque en un juego. Segundo, Meta intent¨®, pero no logr¨®, entrenar esa IA para que fuera honesta. Y tercero, nos toc¨® a cient¨ªficos independientes externos para, mucho despu¨¦s del hecho, desmentir la falsedad de Meta de que su IA buscadora de poder supuestamente era honesta. La combinaci¨®n de estos tres hechos es, en mi opini¨®n, una causa suficiente para preocuparse¡±, seg¨²n Park.
C¨®mo mienten en realidad
Los investigadores creen que hay varios modos en los que modelos espec¨ªficos de IA han demostrado que puede enga?ar con eficacia: pueden manipular como en Diplomacia, amagar con decir que har¨¢ algo a sabiendas de que no lo har¨¢, faroles como en el p¨®ker, regatear en negociaciones, hacerse el muerto para no ser detectado o enga?ar a revisores humanos para que crean que la IA ha hecho lo que deb¨ªa cuando no lo ha cumplido.
No todos los tipos de enga?o implican este tipo de conocimiento. A veces, e involuntariamente, los modelos de IA son ¡°aduladores¡± y simplemente siguen la opini¨®n que apunta cada usuario en sus preguntas: ¡°La adulaci¨®n podr¨ªa llevar a creencias falsas persistentes en humanos. Las afirmaciones aduladoras est¨¢n espec¨ªficamente dise?adas para atraer al usuario. Cuando un usuario se encuentra con estas respuestas, es posible que tenga menos probabilidades de verificar los hechos. Esto a largo plazo podr¨ªa resultar creencias alejadas de la verdad¡±, escriben los autores en el art¨ªculo.
Nadie sabe con certeza c¨®mo hacer que estos modelos no enga?en, dice Park: ¡°Con nuestro nivel actual de comprensi¨®n cient¨ªfica, nadie puede entrenar de manera fiable a los grandes modelos de lenguaje para que no enga?en¡±. Adem¨¢s, hay muchos ingenieros en muchas empresas dedicados a crear modelos distintos y m¨¢s potentes. No todos tienen el mismo inter¨¦s inicial en que sus robots sean honestos: ¡°Algunos ingenieros se toman el riesgo del enga?o de la IA muy en serio, hasta el punto de abogar por medidas de seguridad en IA o implementarlas. Otros ingenieros no se lo toman tan en serio y creen que aplicar un proceso de prueba y error ser¨¢ suficiente para avanzar hacia una IA segura y no mentirosa. Y a¨²n hay otros que se niegan incluso a aceptar que el riesgo de enga?o de la IA exista¡±, dice Park.
Lo usar¨¢n para aumentar su poder
En el art¨ªculo comparan una IA s¨²per inteligente a c¨®mo los ricos aspiran a obtener nuevas cuotas de poder: ¡°A lo largo de la historia, los actores ricos han utilizado el enga?o para aumentar su poder¡±, escriben. El modo en que Park lo aclara sirve para entender mejor c¨®mo de subrepticio puede ser el rol de una IA que quiera ganar poder: ¡°Las empresas de IA est¨¢n en una carrera sin control para crear una IA s¨²per inteligente que supere a los humanos en la mayor¨ªa de las capacidades econ¨®micas y estrat¨¦gicamente relevantes. Una IA de este tipo, al igual que los ricos, ser¨ªa experta en llevar a cabo planes a largo plazo al servicio de buscar poder de manera enga?osa sobre varias partes de la sociedad, como influir a pol¨ªticos con informaci¨®n incompleta o falsa, financiar desinformaci¨®n en los medios o investigadores, y evadir la responsabilidad usando las leyes. Al igual que el dinero se traduce en poder, muchas capacidades de la IA, como el enga?o, tambi¨¦n se traducen en poder¡±, explica Park.
No todos los acad¨¦micos comparten este nivel de temor. El catedr¨¢tico de la Universidad de Edimburgo Michael Rovatsos, en declaraciones a SMC Espa?a, cree que los peligros a largo plazo son demasiado especulativos: ¡°No estoy tan convencido de que la capacidad de enga?o cree un riesgo de p¨¦rdida de control sobre los sistemas de IA, si se aplica el rigor adecuado en su dise?o; el verdadero problema es que actualmente no es as¨ª y los sistemas se lanzan al mercado sin esas comprobaciones de seguridad. El debate sobre las implicaciones a largo plazo de las capacidades enga?osas que plantea el art¨ªculo es muy especulativo y hace muchas suposiciones adicionales sobre cosas que pueden ocurrir o no¡±.
La soluci¨®n que plantea el art¨ªculo para que estos sistemas no superen a sus creadores es la legislaci¨®n. La UE asigna a cada sistema de IA uno de estos cuatro niveles de riesgo: m¨ªnimo, limitado, alto e inaceptable. Los sistemas con riesgo inaceptable est¨¢n prohibidos, mientras que los sistemas con alto riesgo est¨¢n sujetos a requisitos especiales. ¡°Defendemos que el enga?o por parte de la IA presenta una amplia gama de riesgos para la sociedad, as¨ª que deber¨ªan tratarse por defecto como de alto riesgo o riesgo inaceptable¡±, dice Park.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.