David R¨ªos Insua: ¡°No se pueden desplegar tan a la ligera los sistemas de IA¡±
Experto en aprendizaje autom¨¢tico adversario, es miembro de la Real Academia de Ciencias Exactas, F¨ªsicas y Naturales y profesor de investigaci¨®n del Instituto de Ciencias Matem¨¢ticas (ICMAT).
Cada vez dejamos m¨¢s decisiones en sus manos. Una tendencia quiz¨¢s irreversible, aunque no est¨¢ programada a prueba de fallos. Los algoritmos tienen sesgos, se equivocan, incluso alucinan, un t¨¦rmino que humaniza la IA cuando da una respuesta incorrecta. Pero existen otro tipo de errores que se producen por el ataque de alguien con agenda propia, que busca hacer da?o deliberado.
Investigadores del Center for AI Safety, de la Universidad de Stanford, obligaron a ChatGPT a entregarles un plan de c¨®mo manipular psicol¨®gicamente a una persona, algo que por supuesto el sistema tiene prohibido. Pero los riesgos van m¨¢s all¨¢. Los atacantes buscan f¨®rmulas para burlar los filtros de moderaci¨®n de contenido en redes sociales o difundir desinformaci¨®n, podr¨ªan lograr que un coche aut¨®nomo se salte los l¨ªmites de velocidad. O algo peor. Engatusan a las m¨¢quinas.
?Usted le pone zancadillas a la IA?
En realidad yo estoy en el equipo de los buenos. Pero para enfrentarnos al problema tenemos que aprender posibles ataques y ponernos en las botas del malo. Lo que intentamos es hacer sistemas m¨¢s robustos que aguanten los ataques. Estos sistemas se utilizan en defensa, sistemas b¨¦licos o coches aut¨®nomos. Y es concebible enga?arlos para un cierto prop¨®sito, como defraudar a una aseguradora, que un misil vaya en otra direcci¨®n o que un coche en vez de frenar, acelere.
Entonces, ?se les puede burlar?
No es tan f¨¢cil, pero la gente que lo intenta es muy lista, muy capaz y tiene unos intereses detr¨¢s.
?Econ¨®micos?
Claro, un ejemplo muy sencillo ser¨ªa un filtro anti-spam. Cuando la persona que env¨ªa el spam se da cuenta de que est¨¢s protegido, altera ligeramente el mensaje para saltarse esa barrera. Su prop¨®sito aqu¨ª ser¨ªa seguir haciendo negocio, que te siga llegando el mensaje para que hagas clic.
¡°Aprendizaje autom¨¢tico adversario¡± no es un t¨¦rmino intuitivo. ?De d¨®nde viene?
Del ingl¨¦s Adversarial Machine Learning. Digamos que las tareas de aprendizaje autom¨¢tico de una m¨¢quina vienen dificultadas por alguien que quiere que esa tarea no salga bien.
?Por qu¨¦ las IA deben estar a salvo?
Porque cada vez desplegamos m¨¢s sistemas para que tomen decisiones de forma aut¨®noma. Y en algunos campos son decisiones importantes, como cuando se ponen en juego vidas humanas o hay riesgo de impacto ambiental. No se pueden desplegar tan a la ligera. Hay que plantearse una serie de problemas posibles.
?Qu¨¦ papel jugar¨¢ aqu¨ª la legislaci¨®n que ha acordado la Uni¨®n Europea?
Es bastante relevante. Establece unos niveles de riesgo y marca unas pautas sobre las caracter¨ªsticas deseables de los sistemas, como que sean seguros y robustos frente a ataques. La normativa va a hacer que la gente se preocupe m¨¢s por hacerlos m¨¢s seguros.
Lo que desarrolla EE UU lo usa Europa...
S¨ª, pero si quieren operar en la UE tendr¨¢n que hacerlo con esas premisas. La idea es que Europa tenga herramientas para que esto sea as¨ª. La ley es tecnol¨®gicamente neutra, pero s¨ª habla de un sandbox, un entorno seguro para probar los algoritmos, previo a su despliegue operativo.
?Qu¨¦ puede pasar si un modelo de lenguaje, como el motor de ChatGPT, es atacado?
Que le hagan preguntas y d¨¦ respuestas inadecuadas que promuevan violencia o desinformaci¨®n.
?Y c¨®mo se le retuerce para que lo haga?
Se han hecho demostraciones de ataques a modelos de lenguaje. Uno de esos m¨¦todos aprovecha un modelo que es p¨²blico en cierta medida, en cuanto a algoritmo y par¨¢metros. Lo han desviado para que diga cosas que no deb¨ªa decir. Y estas vulnerabilidades se podr¨ªan transferir a sistemas m¨¢s opacos, como ChatGPT y similares.
La seguridad de la IA depender¨¢ de la regulaci¨®n. Lo que s¨ª debemos esperar es que pongan l¨ªmites m¨¢s exigentes que a los humanos, que las m¨¢quinas se equivoquen menos que nosotros
?Son comunes estas vulnerabilidades?
Dir¨ªa que son algo general. Nosotros hemos hecho experimentos en varios dominios, con visi¨®n, con texto, con recomendadores [estudian las preferencias de los usuarios para sugerir, por ejemplo, contenidos], y creo que es general a todos los algoritmos de aprendizaje autom¨¢tico. Podr¨ªamos tener un veh¨ªculo aut¨®nomo que deber¨ªa frenar y no lo hace, o un filtro de contenido que deber¨ªa detener una posible noticia falsa, pero la deja pasar.
?C¨®mo se ataca un coche aut¨®nomo?
Se han hecho experimentos colocando una peque?a pegatina en una se?al de stop. El sistema, que deber¨ªa reconocer el stop, detecta una se?al de ceda el paso. En lugar de parar, el veh¨ªculo sigue si no ve ning¨²n coche. Algo parecido ocurre con una se?al de prohibido circular a m¨¢s de 30, con esa pegatina el coche reconoce que puedes ir a 80, as¨ª que, en lugar de ir despacito, va mucho m¨¢s r¨¢pido.
Que una pegatina arme todo ese jaleo...
Enga?a a la visi¨®n artificial. El sistema recibe una imagen, que en realidad es una matriz de n¨²meros. Esa pegatina, colocada de una forma concreta para aprovechar cierta vulnerabilidad, modifica la matriz y confunde al sistema. La IA deber¨ªa reconocer un tres en la se?al, pero decide que, con alta probabilidad, es un ocho.
?La soluci¨®n?
Todav¨ªa no hay una lo suficientemente buena para protegernos. Los investigadores que han descubierto estas vulnerabilidades hacen llamadas de atenci¨®n para que mucha gente se dedique a trabajar en este campo y hagan m¨¢s seguros los sistemas. Todos los medios que tenemos, ya sean texto, im¨¢genes o voz, se han hackeado.
Si transcribo esta entrevista con un sistema IA, m¨¢s all¨¢ de presentar algunos fallos, ?qu¨¦ consecuencias tendr¨ªa un hackeo?
El sistema cometer¨ªa errores, pero si alguien te hackea por alguna raz¨®n, podr¨ªa ponerme a m¨ª en rid¨ªculo, o a ti. Aunque espero que antes de publicar, lo revises [risas]. Es algo rebuscado, pero alguien podr¨ªa haber entrenado tu transcriptor de voz a texto para que cometa fallos.
?Cu¨¢les son los principales riesgos de seguridad para los sistemas en uso?
A¨²n no disponemos de algoritmos suficientemente robustos, que se puedan enfrentar con garant¨ªas a posibles ataques. Hay riesgos asociados como sesgos, falta de equidad, que tambi¨¦n son importantes. Pero, en seguridad, ese es el problema.
?Hay casos sonados de esos ataques?
Que se sepa, no, pero s¨ª ejemplos potenciales. Otros ejemplos han sido las im¨¢genes m¨¦dicas. Al analizar una imagen, el radi¨®logo artificial deber¨ªa decir que no hay c¨¢ncer, pero al cambiarla ligeramente te dice que lo hay con alta probabilidad.
?Nos explica el asalto a un modelo de IA?
T¨² entrenas el algoritmo con un tipo de datos, pero cuando lo pones en operaci¨®n, va a trabajar con otro entorno. El atacante puede alterar c¨®mo se ha entrenado. O bien, si los datos que recibe el modelo vienen de una fuente, puede alterar esa fuente.
A esto se le llama envenenamiento...
S¨ª, un caso ser¨ªa el spam. Envenenamiento es a?adir un par de palabras buenas y ya tienes m¨¢s probabilidades de enga?ar al filtro. O se cambian caracteres. Por ejemplo, en lugar de una ¡°a¡± se pone una ¡°@¡±; nosotros la leemos igual, pero los algoritmos no son capaces de captarla como una ¡°a¡±.
?C¨®mo se puede mitigar el riesgo?
Se puede robustecer el modelo durante el entrenamiento con datos limpios, pero tambi¨¦n con datos atacados. Y otro modo es intentar operar de forma robusta una vez que ya est¨¢ en operaci¨®n. En este caso, cuando te llega el dato, antes de que ese dato dispare una decisi¨®n, lo podemos procesar para ver si es da?ino y descartarlo. Habr¨¢ entornos en los que el sistema procese el dato por su cuenta y otros en los que avise al humano para pedirle opini¨®n.
Si la seguridad total es imposible, ?d¨®nde ponemos el l¨ªmite al lanzar una IA masiva?
Depender¨¢ de la regulaci¨®n. Para un coche aut¨®nomo, las autoridades tendr¨¢n que decir que como mucho puede tener un accidente cada 500.000 kil¨®metros, y habr¨¢ que hacer una serie de pruebas. O que una herramienta de diagn¨®stico m¨¦dico se equivoque solo una vez cada 50.000. Alguien tendr¨¢ que establecer esa regulaci¨®n. Lo que s¨ª debemos esperar es que pongan l¨ªmites m¨¢s exigentes que a los humanos, que las m¨¢quinas se equivoquen menos que nosotros.