Este programa juega mejor a los 'marcianitos' que un humano
Expertos en inteligencia artificial de Google crean un algoritmo que aprende por s¨ª solo a jugar con decenas de videojuegos de los a?os 80 como 'Space Invaders' o el 'Comecocos'
La inteligencia artificial le est¨¢ ganando la partida a la humana paso a paso. Las m¨¢quinas lo hacen mejor al ajedrez o al p¨®quer, est¨¢n desplazando a los cirujanos en los quir¨®fanos y, en la Bolsa de Nueva York, el 75% de las operaciones las realizan algoritmos matem¨¢ticos. Ahora, expertos en inteligencia artificial de Google han creado un algoritmo capaz de conseguir m¨¢s puntos que un humano jugando a los marcianitos. Y lo logra tras aprender de la experiencia, reforzado por los premios y reposando lo aprendido. Casi como lo hacen los seres humanos.
DeepMind es una joven empresa brit¨¢nica dedicada a la inteligencia artificial de solo cinco a?os de vida. Algo deb¨ªan de estar haciendo bien cuando Google la compr¨® el a?o pasado en una dura pugna con Facebook por casi 700 millones de euros. Lo suyo es el aprendizaje de m¨¢quinas, las redes neuronales artificiales o agentes y algoritmos matem¨¢ticos, los elementos sobre los que se apoya la inteligencia artificial.
La ¨²ltima creaci¨®n de DeepMind es DQN (o deep Q-network). Se trata de un programa, o agente en la jerga de la inteligencia artificial, que juega y muy bien a los videojuegos. Con un m¨ªnimo de informaci¨®n sobre las reglas del juego, las acciones permitidas (como el movimiento del cursor o los disparos) y las pantallas, este algoritmo se tuvo que enfrentar a una cincuentena de juegos de?la m¨ªtica videoconsola Atari 2600 y las m¨¢quinas Arcade que, con t¨ªtulos como el Comecocos (Pacman), Space Invaders o Pong, desplazaron al futbol¨ªn o al pinball de los salones recreativos en la d¨¦cada de los a?os 80 del siglo pasado.
"DQN super¨® a los anteriores sistemas de aprendizaje de m¨¢quinas en 43 de los 49 juegos", comenta Demis Hassabis, uno de los fundadores de DeepMind. Aunque el objetivo de la investigaci¨®n, publicada hoy en la revista Nature, no era demostrar que tambi¨¦n pod¨ªa batir a los humanos, este agente "rindi¨® por encima del 75% del nivel de un jugador humano profesional en m¨¢s de la mitad de los juegos", a?ade Hassabis.
El algoritmo se enfrent¨® a 49 juegos Arcade de los a?os 80 superando a otros algoritmos y a un jugador humano profesional
En los t¨ªtulos m¨¢s populares de entonces, como el juego de boxeo Boxing, los de matar marcianos como Space Invaders, el juego de bolas Video Pinball o Pong, basado en el tenis de mesa, DQN super¨® al jugador humano, llegando a obtener puntuaciones 25 veces m¨¢s altas.
Pero lo m¨¢s llamativo de este agente de inteligencia artificial es su capacidad para aprender y el m¨¦todo con el que lo hace. Hassabis lo ejemplifica con el juego Breakout, evoluci¨®n del Pong donde hab¨ªa que derribar series de ladrillos situados en la parte superior de la pantalla con una pelota. En las primeras fases de su entrenamiento, DQN mueve torpemente la barra para devolver la bola, perdiendo muchas vidas. Pero tras unos centenares de ensayos, descubre algo que parecer¨ªa solo al alcance de un jugador humano: si romp¨ªa los ladrillos del lateral, pod¨ªa colar la pelota sobre ellos y derribarlos por arriba mientras la barra sestea.
"DQN adopt¨® estrategias sorprendentemente anticipatorias que le permitieron conseguir la m¨¢xima puntuaci¨®n posible", comenta el investigador de DeepMind. Y lo hizo sin ninguna instrucci¨®n o truco que le chivaran sus programadores. En su c¨®digo, disponible para usos no comerciales, solo cuenta con los par¨¢metros generales del juego y las pantallas en forma de p¨ªxeles. El algoritmo y su red neuronal artificial hicieron el resto.
Hay un elemento m¨¢s que hace a DQN especial es su modo de aprender. Lo llaman aprendizaje por refuerzo, tomado de la psicolog¨ªa conductista del autor estadounidense Burrhus F. Skinner (1904-1990). Entre otros aspectos, el conductismo sostiene que humanos y animales modifican su conducta, aprenden, en funci¨®n de est¨ªmulos que refuerzan o penalizan una acci¨®n. En esto de los premios y castigos, DQN sabe que su objetivo es lograr la mayor puntuaci¨®n posible cada vez y no olvida las acciones pasadas. De hecho, el algoritmo repasa su comportamiento anterior y sus frutos en los momentos de descanso. Es como la funci¨®n retroalimentadora que el sue?o tiene sobre el cerebro humano.
Sin embargo, a DQN a¨²n le queda mucho por aprender. En una decena de juegos, como en Ms Pac-Man, la versi¨®n del fabricante Atari del Comecocos, el algoritmo apenas lleg¨® al 10% del nivel logrado por el jugador humano. Destaca el caso del t¨ªtulo Montezuma's Revenge, un juego de plataforma al estilo de Mario Bros, donde DQN fue incapaz de puntuar. Como explican los autores, "los juegos que exigen estrategias de planificaci¨®n m¨¢s extendidas en el tiempo a¨²n son uno de los grandes retos de todos los agentes actuales, incluido DQN".
A los agentes de inteligencia artificial a¨²n les cuesta desenvolverse bien en juegos dise?ados en los a?os 80, limitados no solo de recursos gr¨¢ficos, sino en el propio recorrido del juego, en buena medida por culpa de los humanos. Si ni siquiera se sabe bien c¨®mo aprende el cerebro humano, ?c¨®mo ense?ar correctamente a una m¨¢quina a aprender?
"Sabemos muy poco sobre c¨®mo aprenden realmente los humanos. Sabemos que hay algunos par¨¢metros ajustables en el cerebro, como la longitud de las sinapsis [las conexiones entre neuronas], pero desconocemos en realidad c¨®mo, por medio de qu¨¦ algoritmos o normas, aprende nuestro cerebro", recuerda el investigador?Bernhard Sch?lkopf, del Instituto Max Planck de Sistemas Inteligentes.
Este experto en inteligencia artificial, que no ha participado en la investigaci¨®n de DeepMind, sostiene, sin embargo, que en las ¨²ltimas d¨¦cadas se ha avanzado en la comprensi¨®n del aprendizaje en abstracto. "Sabemos c¨®mo extraer conocimiento de forma autom¨¢tica de lo que observamos y c¨®mo llevar esto a un sistema que pueda realizar una tarea", a?ade.
Para?Sch?lkopf, esta comprensi¨®n de lo abstracto sirve para crear sistemas tecnol¨®gicos capaces de aprender. "Por ejemplo, sistemas para internet que deciden lo que probablemente quieres comprar o qu¨¦ anuncio vas a abrir o qu¨¦ resultados del buscador vas a encontrar m¨¢s interesantes. Tambi¨¦n en sistemas f¨ªsicos, como robots que aprenden a coger objetos o coches autoconducidos que aprenden a evitar obst¨¢culos", menciona.
Estos son algunos de los objetivos a largo plazo de algoritmos como DQN. En el blog de Google donde explican su creaci¨®n, los investigadores recuerdan que su fin no es crear un sistema que pueda ganar a los marcianitos. "Este tipo de tecnolog¨ªa deber¨ªa ayudarnos a crear m¨¢s y mejores productos. Imagina si pudiera pedirle a la app de Google que realizara cualquier tipo de tarea compleja", escriben.
Ah¨ª est¨¢ buena parte del inter¨¦s de Google en DeepMind y sus investigaciones. "Google usa aprendizaje de m¨¢quinas en todo. Su modelo de negocio es recoger datos de la gente e inferir modelos predictivos basados en los datos, que convierte en dinero. Una peque?a mejora de estos modelos puede generar grandes beneficios", recuerda Sch?lkopf.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.