Las m��quinas aprenden solas a coordinarse contra su enemigo

Google Deepmind logra que sus agentes artificiales ganen en equipo en videojuegos de combate

31 may 2019 - 12:04CEST

Varias recreaciones del juego que se us�� para probar a los agentes artificiales.

Cada pocos meses se anuncia un nuevo logro en el campo de la inteligencia artificial. Nuevos hitos que muestran el m��sculo que est�� desarrollando este campo de investigaci��n, financiado en buena medida por empresas privadas. Son retos vistosos, como cuando se hacen invencibles en tableros familiares y juegos populares. Pero tambi��n son victorias que invitan a reflexiones m��s profundas al analizar lo que suponen. No es solo que la m��quina logre ganar, es que es capaz de "intuir" c��mo hacerlo. No es que venza aprendiendo de cero, es que se ense?a a s�� misma despreciando los conocimientos milenarios de los humanos. Hoy, las m��quinas suben otro pelda?o que da que pensar: ya son capaces de coordinarse, sin conocerse ni hablar entre ellas, para lograr sus objetivos.

Los investigadores de Google buscan la manera de coordinar distintas inteligencias artificiales para afrontar tareas cada vez m��s complejas

Pero tambi��n han demostrado que pueden hacer equipo con los humanos para hacernos m��s eficientes, que es la perspectiva buena. Todo esto, en un popular videojuego de combate como campo de pruebas. El hito, en resumen, es este: Google ha desarrollado una inteligencia artificial que se desenvuelve en un videojuego de tiroteos mejor que un humano, al ser capaz de coordinarse con compa?eros de equipo hasta desarrollar estrategias que lo lleven a la victoria. En este juego, el Quake III Arena (Q3A), los jugadores tienen que robar la bandera del enemigo y llevarla a su base, mientras protegen la suya propia, disparando un l��ser contra ellos.

��Lo que hace que estos resultados sean tan emocionantes es que estos agentes perciben su entorno desde la perspectiva de primera persona, tal como lo har��a un jugador humano", dice Thore Graepel, cient��fico de DeepMind y la University College de Londres. "Para aprender a jugar t��cticamente y colaborar con sus compa?eros de equipo, estos agentes deben confiar en la informaci��n que reciben de los resultados del juego, sin que nadie les muestre qu�� hacer", a?ade Graepel en declaraciones facilitadas por DeepMind, la divisi��n de inteligencia artificial del gigante tecnol��gico. Las m��quinas no saben lo que sucede en todo momento ni lo que esperar, como en otros juegos: el mundo es cambiante e imprevisible, por momentos no ven al rival y no saben qu�� consecuencias tendr��n sus decisiones.

DeepMind program�� a sus agentes para que se desarrollaran con caracter��sticas particulares: algunos se sent��an m��s motivados a matar al enemigo, otros a capturar banderas

En lugar de entrenar con un ��nico jugador-m��quina, los investigadores usaron un equipo de 30 agentes (as�� los llaman) que ten��an que aprender de cero toda la mec��nica del juego, ��nicamente viendo lo mismo que ver��a un jugador humano y tras conocer si el resultado de la partida es derrota o victoria. De este modo, mediante el aprendizaje por refuerzo, los 30 agentes descubren mediante ensayo y error lo que necesitan para ganar, sin conocer las reglas y sin que nadie les gu��e o les muestre ejemplos. Al jugar entre s��, a lo largo de 450.000 partidas en paralelo, cada uno de estos agentes desarroll�� su propia forma de jugar. DeepMind los hab��a programado para que generaran sus propias se?ales de recompensa: algunos se sent��an m��s motivados a matar al enemigo (al dispararles y as�� devolverlos a su base), otros a capturar banderas, etc., lo que produjo un abanico amplio de jugadores con distintas habilidades y t��cnicas. Adem��s, el software propicia que los agentes act��en en dos velocidades, por lo que pueden disparar con la adrenalina del enfrentamiento inmediato, pero tambi��n planificar movimientos en el largo plazo para una mejor estrategia. DeepMind, que publica ahora los detalles de su logro en la revista Science, los llam�� FTW (siglas de for the win, para la victoria en ingl��s).

El mejor amigo de los humanos

Sin embargo, lo m��s complicado no era que estos FTW lograran convertirse en ganadores, sino que fueran capaces de coordinarse con otros agentes de su equipo, incluso con humanos, con los que no interact��an m��s que movi��ndose dentro del terreno de juego. "Los humanos act��an y piensan individualmente, pero tambi��n son capaces de unirse por medio de equipos, organizaciones y sociedades en impresionantes demostraciones de inteligencia colectiva", indica Max Jaderberg, de DeepMind. A medida que se complican los retos para la inteligencia artificial, en Google son conscientes de que requerir��n que las m��quinas puedan trabajar en equipo. "Por lo tanto", a?ade Jaderberg, "es importante comprender mejor estas interacciones y los m��todos y t��cnicas subyacentes que las facilitan".

Intuitivamente, las m��quinas aprendieron las estrategias habituales de los humanos. Tras unas cuatro mil partidas, se dieron cuenta de que era una buena idea hacer guardia en la base enemiga. Despu��s de unas cincuenta mil partidas, cuando ya eran capaces de ganar a humanos, los agentes aprendieron a seguir a su compa?ero de equipo en el asalto, otro comportamiento com��n en jugadores de carne y hueso. Pero a partir de las doscientas mil partidas comenzaron a desechar esa t��ctica, reemplaz��ndola por formas m��s complementarias de colaboraci��n.

Tras un torneo con 40 jugadores de carne y hueso, los jugadores puntuaron a los agentes como m��s cooperativos que los humanos

Esta evoluci��n se ha dado cada vez que las m��quinas se han propuesto hacerse invencibles, como se vio en el Go o el ajedrez. Primero descubren de forma aut��noma las jugadas ganadoras depuradas durante cientos de a?os por los mejores cerebros humanos, para m��s adelante abandonarlas al inventar mejores t��cticas. Como si las m��quinas desentra?aran los secretos internos de estos desaf��os intelectuales, como si accedieran a unas claves que se le han resistido a miles de jugadores humanos a lo largo de la historia. "Es asombroso ver c��mo los agentes aprenden a colaborar y jugar a cotas humanas, desarrollando t��cticas y estrategias similares a las de los jugadores humanos, solo a partir de esa peque?a informaci��n y un algoritmo capaz de aprender de principio a fin", asegura Jaderberg.

La prueba final lleg�� cuando DeepMind puso a sus agentes a competir en un torneo junto a 40 humanos, en formaciones aleatorias de jugadores de silicio y de carne. Las FTW arrasan a los gamers, pero hay una posibilidad para los humanos. "Solo como parte de un equipo de agente-humano [mixto] observamos a un humano ganando a un equipo agente-agente", explica DeepMind en su estudio de Science. Eso s��, con tan solo un 5% de probabilidad de ganar. "Este resultado sugiere que los agentes entrenados son capaces de cooperar con compa?eros de equipo desconocidos, como los humanos", a?ade el estudio. Es m��s, en una encuesta realizada posteriormente, los jugadores puntuaron a los agentes como m��s cooperativos que a los humanos. No solo se entienden entre ellas: las m��quinas pueden coordinarse con un humano para llevarlo a la victoria. Y ese es precisamente el m��s noble objetivo de los defensores del futuro de la inteligencia artificial: su capacidad de impulsar a los humanos m��s all��.

Tu suscripci��n se est�� usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci��n?

A?adir usuario Continuar leyendo aqu��

Si contin��as leyendo en este dispositivo, no se podr�� leer en el otro.

?Por qu�� est��s viendo esto?

Flecha

Tu suscripci��n se est�� usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci��n a la modalidad Premium, as�� podr��s a?adir otro usuario. Cada uno acceder�� con su propia cuenta de email, lo que os permitir�� personalizar vuestra experiencia en EL PA?S.

?Tienes una suscripci��n de empresa? Accede aqu�� para contratar m��s cuentas.

En el caso de no saber qui��n est�� usando tu cuenta, te recomendamos cambiar tu contrase?a aqu��.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar�� en tu dispositivo y en el de la otra persona que est�� usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu�� los t��rminos y condiciones de la suscripci��n digital.

Sobre la firma

Javier Salas

Jefe de secci��n de Ciencia, Tecnolog��a y Salud y Bienestar. Cofundador de MATERIA, secci��n de ciencia de EL PA?S, ejerce como periodista desde 2006. Antes, trabaj�� en Informativos Telecinco y el diario P��blico. En 2021 recibi�� el Premio Ortega y Gasset.