Una m¨¢quina se ense?a a s¨ª misma a ganar en todo
DeepMind desarrolla una inteligencia artificial invencible en los tres juegos de tablero m¨¢s complejos gracias a un algoritmo que compite sin instrucciones
El objetivo est¨¢ lejos: conseguir una sola m¨¢quina capaz de enfrentarse a cualquier reto o tarea sin ayuda. Hasta ahora, los grandes logros de la inteligencia artificial se generan con m¨¢quinas dedicadas espec¨ªficamente a una tarea, entrenadas para ello en una condiciones muy concretas, incapaces de adaptarse a un cambio sustancial. Pero los pasitos que se van dando hacia ese objetivo son firmes. El ¨²ltimo progreso lo firma DeepMind, que ha conseguido que un mismo programa se convierta en invencible en ajedrez, shogi (una versi¨®n japonesa del juego) y go, los tres juegos de tablero m¨¢s exigentes para el intelecto. Pero el mundo real es mucho m¨¢s complejo e imprevisible.
"En lugar de procesar instrucciones y conocimientos humanos, como todas las m¨¢quinas de ajedrez anteriores, AlphaZero genera su propio conocimiento", asegura Kasp¨¢rov
El logro de DeepMind, la divisi¨®n de inteligencia artificial de Google, promete generar importantes avances. Este programa, llamado AlphaZero, ha aprendido solo a jugar sobre estos dif¨ªciles tableros, como explican sus desarrolladores en la revista Science. De cero (de ah¨ª su nombre), sin ayuda ni ejemplos de jugadores reales. En otras ocasiones, el ordenador aprend¨ªa porque lo alimentaban con todo el conocimiento humano, millones de jugadas y ejemplos reales, y a partir de ah¨ª el cerebro de silicio eleg¨ªa las mejores estrategias. Deep Blue venci¨® as¨ª a Kasp¨¢rov. Y AlphaGo venci¨® as¨ª a Lee Sedol. Pero AlphaZero aprende de s¨ª mismo y en apenas un pu?ado de horas; tan solo le explican las reglas del juego y a partir de ah¨ª ha sido capaz de convertirse en el mejor jugador de todos los tiempos en estas tres disciplinas. Los programas que mejor juegan al ajedrez, al shogi y al go ¡ªsin rival entre los humanos y dise?ados durante a?os espec¨ªficamente para esta tarea¡ª apenas son capaces de ara?ar una victoria entre miles de derrotas.
Es m¨¢s, esta inteligencia artificial es capaz de vencer con una mano atada a la espalda. Al enfrentarse ordenadores contra ordenadores, se otorgaban unos tiempos a cada aparato para pensar su movimiento. La inteligencia de AlphaZero era tan superior que ganaba incluso cuando se le conced¨ªa tan solo una d¨¦cima parte del tiempo que a sus rivales para procesar la informaci¨®n y mover. Y no es una cuesti¨®n de potencia computacional, es porque se le ha otorgado una forma de razonar m¨¢s profunda y selectiva. En ajedrez, valora ¨²nicamente 60.000 posibilidades por segundo frente a los 60 millones de opciones que baraja su rival, Stockfish, el m¨¢s potente jugador de ajedrez hasta ahora.?El algoritmo busca solo entre los movimientos m¨¢s prometedores.
Tard¨® nueve horas en entrenarse para jugar al ajedrez; despu¨¦s de cuatro horas jugando contra su rival ya era el mejor jugador de la historia
Pero AlphaZero no solo vence, revoluciona el juego. Como la m¨¢quina aprende sola, sin modelos ni ejemplos, empieza con decisiones aleatorias y al cabo de un tiempo empieza a descubrir las jugadas y planteamientos que llevan usando siglos los humanos. Pero enseguida encuentra mejores enfoques, completamente nuevos, creando un estilo de juego propio y poco ortodoxo. "Est¨¢ libre de las limitaciones del modo en que los humanos piensan sobre el juego", explica Demis Hassabis, jefe de DeepMind, por lo que ha incorporado al tablero estrategias desconocidas que ya est¨¢n fascinando a los expertos. En ajedrez, se habla de c¨®mo sus piezas se arremolinan en torno al rey del oponente con fuerza, dinamismo y determinaci¨®n. Desprecia el valor material de las piezas y prefiere hacer sacrificios impensables desde el principio de la partida porque al final merecer¨¢ la pena. En el shogi, realiza movimientos que van en contra de todos los manuales, como mover al rey al centro del tablero, porque supone ponerlo en peligro, pero para AlphaZero se convierte en una forma de mantener el control del campo de batalla. Cuando se hizo lo mismo en el milenario go, la m¨¢quina lleg¨® a la conclusi¨®n de que el conocimiento humano era un lastre.
"El ajedrez se ha utilizado como una piedra de Rosetta tanto de la cognici¨®n humana como de la m¨¢quina durante m¨¢s de un siglo", asegura Garri Kasp¨¢rov, en una nota proporcionada por DeepMind. "En lugar de procesar instrucciones y conocimientos humanos a una velocidad tremenda, como todas las m¨¢quinas de ajedrez anteriores, AlphaZero genera su propio conocimiento. ?Y no puedo disimular mi satisfacci¨®n por que juegue con un estilo muy din¨¢mico, muy parecido al m¨ªo!", festeja quien dominara el ajedrez mundial desde mediados de los ochenta hasta el arranque de este siglo.
El entrenamiento de AlphaZero, lanzado a finales de 2017, es fulminante: tard¨® nueve horas en prepararse para vencer al ajedrez, 12 para el shogi y 13 d¨ªas para el go, el m¨¢s complejo de los tres. Y cuando se le soltaba en la arena, frente a las mejores m¨¢quinas en cada juego, apenas se despeinaba para vencer. Al cabo de cuatro horas ya era el mejor jugador de la historia del ajedrez; dos horas le dur¨® Elmo, el mejor en shogi; y 30 horas tard¨® en someter a su hermano AlphaGo, la m¨¢quina desarrollada por DeepMind para ser imbatible al go.
"Pese a la expectaci¨®n, este tipo de juegos son una manera inadecuada de medir el progreso en inteligencia artificial general", avisa un experto
El especialista de IBM en inteligencia artificial Murray Campbell pone algunas pegas al logro de DeepMind, sobre todo desde la perspectiva computacional, puesto que ni los programas de ajedrez ni los de shogi podr¨ªan aprovechar las unidades de procesamiento para las que AlphaZero ha sido dise?ado, "lo que dificulta las comparaciones directas". "Sus redes neuronales son muy poderosas, pero requieren una gran cantidad de c¨¢lculos. Los procesadores que utiliza AlphaZero son muy r¨¢pidos para ejecutar redes neuronales, pero no pueden ser utilizados por programas de juegos convencionales que no usan redes neuronales", explica a EL PA?S este experto, que desarroll¨® Deep Blue para batir a Kasp¨¢rov.
Un campe¨®n de ajedrez in¨²til
"El objetivo de DeepMind es construir sistemas que puedan resolver algunos de los problemas m¨¢s complejos del mundo real; crear un programa que pueda ense?arse a s¨ª mismo c¨®mo jugar ajedrez de clase mundial, shogi y go partiendo de cero es un paso importante en este trayecto", asegura Hassabis. Su equipo, liderado por David Silver, ha desarrollado la m¨¢quina para que aprenda jugando contra s¨ª misma a trav¨¦s de un proceso de ensayo y error denominado aprendizaje por refuerzo. Para AlphaZero se han basado en redes neuronales profundas que permiten ese razonamiento sofisticado y sendos algoritmos de b¨²squeda y razonamiento que son de prop¨®sito general, lo que le permite adaptarse para ganar a distintos juegos. Sin embargo, los tableros son tan transparentes y previsibles que quiz¨¢ ya no sean el mejor reto para avanzar en la inteligencia artificial.?
"Hay que ser cautos", advierte Miguel L¨¢zaro, investigador espa?ol en inteligencia artificial de la empresa puntera Vicarious. Y a?ade: "Pese a la expectaci¨®n que estos avances generan, este tipo de juegos son una manera inadecuada de medir el progreso en inteligencia artificial general". Para L¨¢zaro, la comprensi¨®n del juego por parte de AlphaZero est¨¢ codificada de manera opaca en el interior de la red neuronal, por lo que sigue sin poder adaptarse a un cambio en el entorno o a una nueva regla de juego, algo que les obligar¨ªa a volver a empezar de cero. Campbell coincide con L¨¢zaro en que AlphaZero muestra "fragilidad", por lo que "si se cambiaran las reglas del juego, aunque fuera un poco, necesitar¨ªa una cantidad significativa de reentrenamiento". Ellos mismos lo reconoc¨ªan hace meses: si cambian de golpe las dimensiones del tablero "estar¨ªamos muertos".
"AlphaZero puede identificar lo que cree que es el mejor movimiento, pero no es capaz de explicar sus decisiones", critica un especialista en IA
Para L¨¢zaro, que trabaja para una empresa que busca un enfoque m¨¢s humano y adaptable para la inteligencia de las m¨¢quinas, este tipo de juegos son demasiado deterministas. Toda la informaci¨®n acerca de la partida est¨¢ disponible y el resultado de una acci¨®n es perfectamente predecible, algo "muy distinto del escenario al que habitualmente se enfrenta la inteligencia humana". "Nosotros efectuamos acciones cuyo resultado solo podemos prever parcialmente en entornos de los que solo observamos una parte", describe.
Seg¨²n L¨¢zaro, AlphaZero podr¨ªa ser el ejemplo m¨¢s reciente de la paradoja de Moravec: "Es f¨¢cil conseguir que las computadoras muestren capacidades similares a las de un humano adulto en pruebas de inteligencia, y dif¨ªcil o imposible lograr que posean las habilidades perceptivas y motrices de un beb¨¦ de un a?o". Es decir, es m¨¢s f¨¢cil conseguir una m¨¢quina imbatible en ajedrez que una que sepa interactuar de forma natural con el mundo, tan imperfecto e imprevisible. "Las decisiones que tenemos que tomar a la hora de preparar un s¨¢ndwich, manipulando y ensamblando los ingredientes, parecen mucho m¨¢s sencillas, pero sin embargo son mucho m¨¢s complicadas, desde la perspectiva computacional, que los juegos de mesa en los que compite AlphaZero", zanja L¨¢zaro.
Adem¨¢s de las grandes exigencias computacionales que demanda AlphaZero, Campbell a?ade un ¨²ltimo problema a los progresos de DeepMind: la falta de interpretabilidad. "Si bien AlphaZero puede identificar lo que cree que es el mejor movimiento y proporcionar secuencias de movimientos para respaldarlo, no es capaz de explicar sus decisiones en t¨¦rminos que los humanos puedan entender f¨¢cilmente", asegura el experto de IBM. Es decir, no sabemos los motivos por los que elige una determinada opci¨®n, lo que puede ser un grave problema al llevar estos algoritmos a otros ¨¢mbitos de decisi¨®n.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.