¡®Estudiante de juegos¡¯, el algoritmo que gana al ajedrez y al p¨®quer
Un grupo de expertos desarrolla un programa de inteligencia artificial que vence con solo aprender las reglas de los juegos
Un nuevo algoritmo llamado Student of Games (en ingl¨¦s, Estudiante de juegos) es capaz de ganar a distintos juegos de mesa, como el ajedrez, el Go, el p¨®quer Texas Hold¡¯em y Scotland Yard, un juego de estrategia. El programa de inteligencia artificial combina la b¨²squeda guiada, el aprendizaje autom¨¢tico y el razonamiento te¨®rico del juego, seg¨²n explican los investigadores que lo han desarrollado en la investigaci¨®n que se publica este mi¨¦rcoles...
Reg¨ªstrate gratis para seguir leyendo
Si tienes cuenta en EL PA?S, puedes utilizarla para identificarte
Un nuevo algoritmo llamado Student of Games (en ingl¨¦s, Estudiante de juegos) es capaz de ganar a distintos juegos de mesa, como el ajedrez, el Go, el p¨®quer Texas Hold¡¯em y Scotland Yard, un juego de estrategia. El programa de inteligencia artificial combina la b¨²squeda guiada, el aprendizaje autom¨¢tico y el razonamiento te¨®rico del juego, seg¨²n explican los investigadores que lo han desarrollado en la investigaci¨®n que se publica este mi¨¦rcoles en la revista Science Advances. Hasta ahora, el algoritmo AlphaZero solo pod¨ªa resolver juegos con informaci¨®n perfecta, como el ajedrez y el Go, en los que todos los jugadores tienen acceso a la misma informaci¨®n. Sin embargo, no era capaz de ganar al p¨®quer al ser un juego con informaci¨®n imperfecta donde no se conocen las cartas de los contrincantes.
La investigaci¨®n se llev¨® a cabo mientras los expertos trabajaban en Google DeepMind, la divisi¨®n de investigaci¨®n de inteligencia artificial de Google. Sin embargo, varios miembros del equipo dejaron Google en enero de 2022 y la compa?¨ªa despidi¨® despu¨¦s a la mayor¨ªa del equipo restante en enero de 2023.
La herramienta es capaz de ganar en juegos perfectos e imperfectos con un conocimiento m¨ªnimo. ¡°Nuestro algoritmo es capaz de razonar bas¨¢ndose en las reglas de los juegos. Por ejemplo, aprende a jugar a todos ellos (ajedrez, p¨®quer, Go o Scotland Yard) solo con las normas, sin que se le d¨¦ m¨¢s informaci¨®n¡±, explica Finbarr Timbers, investigador de Midjourney y autor del estudio. ¡°Con ellas determina qu¨¦ acciones puede realizar y si ha ganado o perdido¡±, contin¨²a.
Para saber las jugadas que debe realizar en cada momento, el algoritmo se basa en lo que se llama ¡°minimizaci¨®n del arrepentimiento contrafactual¡±. Esto se centra en el an¨¢lisis de todas las jugadas posibles. El ¡°arrepentimiento¡±, seg¨²n Timbers, significa ¡°lo bien que te podr¨ªa haber ido si hubieras jugado de forma ¨®ptima, menos lo bien que has jugado en realidad¡±. Un ejemplo: si en el p¨®quer has ganado 200 fichas siguiendo unas jugadas, pero podr¨ªas haber ganado 1.000 con otras, el arrepentimiento es de 800 fichas. Por lo tanto, el objetivo del Estudiante de juegos es reducir lo posible las 800 fichas. Tiene en cuenta todos los escenarios posibles con las cartas que est¨¦n boca arriba, es decir, la informaci¨®n p¨²blica, y hace una media de todos ellos.
Todos los escenarios posibles convergen en el equilibrio de Nash, teorema del matem¨¢tico estadounidense John Nash. Los jugadores de una partida juegan sus estrategias para maximizar las ganancias y van adapt¨¢ndola a lo largo del juego seg¨²n las jugadas de los dem¨¢s. Timbers y sus colegas se han basado en ¨¦l para que el algoritmo busque una estrategia ¨®ptima en la mayor¨ªa de situaciones.
Cada juego transporta al participante a distintos escenarios. En el ajedrez, cuando est¨¢s en una posici¨®n determinada del tablero, puedes buscar entre las posibles jugadas para encontrar la mejor. Sin embargo, en el p¨®quer no funciona as¨ª. Timbers explica que hay que considerar el impacto de las jugadas en otras situaciones: ¡°Si empiezas a apostar alto cada vez que tienes una mano fuerte, al apostar agresivamente revelar¨¢s a tu oponente que tienes una buena mano. Del mismo modo, si dejas de apostar cuando tienes una mano d¨¦bil, revelar¨¢s a tu oponente cu¨¢l es tu mano¡±.
La empresa brit¨¢nica DeepMind, propiedad de Google desde 2014, desarroll¨® un algoritmo llamado R-NaD capaz de jugar como un humano experto a Stratego, un popular juego de 40 fichas donde los jugadores deben capturar la bandera del contrincante o dejarle sin fichas. R-NaD utiliza trucos algor¨ªtmicos para obtener un buen rendimiento pero sin usar el m¨¦todo de b¨²squeda. Por este motivo no es tan fuerte como algoritmo del Estudiante: ¡°La bibliograf¨ªa ha demostrado hist¨®ricamente que los algoritmos que buscan entre las posibles acciones suelen ser mejores en los juegos que los algoritmos que no utilizan la b¨²squeda, pero son m¨¢s lentos y m¨¢s caros de entrenar¡±, revela Timbers.
La inteligencia artificial competitiva se usa para medir la efectividad de los programas inform¨¢ticos y para obtener una mejor experiencia del juego, pero tambi¨¦n puede tener implicaciones negativas: ¡°Es muy posible que ocurran trampas en p¨¢ginas web de apuestas de p¨®ker y en juegos similares. Muchos videojuegos competitivos tratar¨¢n de ser inflexibles con el software permitido en los ordenadores de cada jugador para asegurarse de que no juega una inteligencia artificial, algo que ya hace Riot Games con Valorant (2020)¡±, indica Diego Rodr¨ªguez-Ponga Albal¨¢, fundador y director de P¨®ntica. Para ello, se?ala que es previsible ¡°que se desarrolle una inteligencia artificial muy sofisticada para detectar autom¨¢ticamente si el jugador es humano o no¡±.
Gema Ruiz, jefa de innovaci¨®n en Softtek EMEA, tambi¨¦n se?ala otras limitaciones del algoritmo, como el uso de abstracciones de apuestas en el p¨®quer y los ¡°gastos computacionales¡±. El uso de abstracciones consiste en la agrupaci¨®n de jugadas similares que se tratan de la misma manera para disminuir la complejidad del juego. Cuando el estudiante entrena al p¨®quer, utiliza abstracciones de apuestas aleatorias para reducir el n¨²mero de acciones de 20.000 a 4 o 5. En el futuro, el estudio sugiere que se podr¨ªa reemplazar su utilizaci¨®n por ¡°una pol¨ªtica m¨¢s amplia que pueda manejar una variedad de acciones en situaciones de juego con un gran n¨²mero de posibles decisiones¡±, dice Ruiz. Adem¨¢s, la enumeraci¨®n de todas las jugadas posibles del algoritmo supone un alto coste y para ello proponen un ¡°modelo generativo¡±, seg¨²n el estudio. Este genera muestras de estados [estrategias] del mundo y opera sobre el subconjunto de las muestras seleccionadas, en lugar de enumerar todas las combinaciones de manos posibles.
Pese a ello, la herramienta, para Ruiz, es ¡°un contendiente prometedor en el ¨¢mbito de los algoritmos de juego impulsados por la inteligencia artificial¡±. Destaca ¡°su capacidad para mejorar el rendimiento con recursos computacionales aumentados, junto con s¨®lidos fundamentos te¨®ricos¡±.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.