La m��quina que gana a los maestros del p��ker y por la que apuestan el Pent��gono y Facebook

El apoyo militar a una inteligencia artificial que vence a los mejores jugadores de cartas reabre el debate sobre el futuro de esta tecnolog��a

11 jul 2019 - 20:01Actualizado: 11 jul 2019 - 22:02CEST

Sandholm, a la izquierda con corbata, y Brown, con un port��til en la mano, durante un experimento de Libratus frente a campeones de p��ker.Carnegie Mellon

La inteligencia artificial y sus usos est��n en el centro del debate de la comunidad cient��fica. Muchas voces del sector se han alzado para avisar de los peligros de su aplicaci��n en el campo de batalla. Que haya cient��ficos, ingenieros e inventores desarrollando tecnolog��as que sirvan para matar evoca la caja de Pandora que se destap�� en el Proyecto Manhattan, cuando los mejores cient��ficos de su generaci��n parieron la bomba at��mica. Ese episodio, el uso de la ciencia para matar a una escala inimaginable, supuso un trauma monumental entre los f��sicos de la ��poca. Algunos especialistas en inteligencia artificial no quieren que les pase lo mismo tras crear m��quinas de matar aut��nomas y lanzan iniciativas para impedirlo.

La empresa del cient��fico tiene dos contratos de 10 millones en total con el Pent��gono. Su universidad, la Carnegie Mellon, un proyecto de 72 millones

En pleno debate, la revista Science publica este jueves un experimento de inteligencia artificial aplicada al p��ker. Pero la parte m��s interesante est�� en las ��ltimas l��neas del art��culo, en el apartado de agradecimientos. El trabajo, que da a conocer un nuevo programa capaz de derrotar a cinco campeones de p��ker a la vez, cuenta con el apoyo de la Oficina de Investigaciones del Ej��rcito de Estados Unidos. Y tambi��n lo financia parcialmente Facebook, la red social con m��s de 2.000 millones de usuarios. ?Para qu�� quieren una m��quina que gana al p��ker?

Pocas actividades humanas resumen tan bien la dificultad de gestionar la falta de informaci��n como el p��ker (con permiso del mus, claro). Sin conocer las cartas de los rivales, el jugador debe tomar decisiones bas��ndose en su propia mano y en la escasa informaci��n que los dem��s le suministran, deliberadamente o no. No en vano, poner cara de p��ker es la mejor met��fora para expresar esa capacidad de manejar el secreto sin regalarle ni una pista al resto de implicados.

Este escenario, llamado de informaci��n imperfecta, supone un reto inmenso para una m��quina: cuando juega al ajedrez o a las damas contra un humano sabe lo que hay en el tablero, no decide a ciegas.? En 2017, la m��quina Libratus super�� este reto, pero en la versi��n m��s simple: jugando uno contra uno frente a un humano. Los juegos de suma cero, en el que la ganancia de uno es la p��rdida del otro, son razonablemente sencillos de plantear para una m��quina cuando compite contra un ��nico rival. Pero si ponemos cinco humanos en la mesa, todos campeones contrastados de p��ker, alcanzar la victoria es mucho m��s complejo.

Sandholm, que desarroll�� un algortimo para organizar los trasplantes en EE UU, cre�� una empresa para comercializar sus logros en el ��mbito militar

Ese es el reto que se planteaba el equipo de investigadores que cre�� Libratus, que pertenece a la Universidad Carnegie Mellon y que colabora con la divisi��n de inteligencia artificial de Facebook. Y lo han logrado, seg��n publican en la revista Science: "En este art��culo describimos a Pluribus, una inteligencia artificial capaz de derrotar a los profesionales humanos de ��lite en el p��ker Texas Hold'em sin l��mite para seis jugadores, el formato de p��ker m��s jugado en el mundo". Pluribus aprende a ganar de cero, jugando contra cinco versiones de s�� misma, sin indicaciones ni conocimiento de partidas humanas. Y desarrolla sus propias estategias ganadoras, al margen del saber acumulado por los humanos.

"La capacidad de vencer a otros cinco jugadores en un juego tan complicado abre nuevas oportunidades para utilizar la inteligencia artificial en la resoluci��n de una amplia variedad de problemas del mundo real", asegura el autor principal de este logro, Tuomas Sandholm, que en 2017 derrot�� a profesionales del p��ker en partidas a dos con su programa Libratus. Sandholm, que lleva casi dos d��cadas dedicadas a conseguir que las m��quinas ganen al p��ker, ha desarrollado algortimos con aplicaciones tan importantes como decidir c��mo se organiza la donaci��n y trasplante de ��rganos en EE UU.

Tras el ��xito de Libratus, a finales de 2017, a Sandholm y su pupilo Noam Brown les llovieron los premios y los reconocimientos. Una m��quina capaz de mejorar a los humanos gestionando escenarios en los que falta informaci��n es todo un logro. En ese momento, Sandholm cre�� la empresa Strategy Robot, para comercializar aplicaciones gubernamentales y de seguridad a los desarrollos tecnol��gicos de su laboratorio: estrategia y t��ctica militar, juegos de guerra, inteligencia, diplomacia, ciberseguridad, etc��tera. Y con su empresa Strategic Machine comercializa las aplicaciones civiles: gesti��n de negociaciones, inversiones bancarias, campa?as pol��ticas, mercado el��ctrico, etc.

En el p��ker se enfrenta a un escenario de informaci��n imperfecta: cuando juega al ajedrez o a las damas contra un humano sabe lo que hay en el tablero

Posterioremente, Strategy Robot firmaba un contrato con el Pent��gono, como adelant�� Wired, por valor de casi nueve millones de euros, a trav��s de la Unidad de Innovaci��n para la Defensa, creada por el Pent��gono para trabajar con Silicon Valley. Tambi��n tiene en vigor otro contrato de casi un mill��n, a trav��s de DARPA (Agencia de Proyectos de Investigaci��n Avanzados de Defensa), para aplicar estos juegos de informaci��n imperfecta a la toma de decisiones militares. En el desarrollo de Pluribus, la nueva m��quina que Sandholm y Brown presentan en la revista Science, ha colaborado la Oficina de Investigaciones del Ej��rcito, cuyo prop��sito es financiar investigaci��n en el entorno acad��mico.

Para esta investigaci��n, tambi��n han contado con el apoyo de Facebook. Brown est�� realizando su doctorado universitario en la divisi��n de inteligencia artificial de la red social. La compa?��a de Mark Zuckerberg pag�� 50.000 euros a 15 campeones profesionales de p��ker, que se repartieron seg��n sus m��ritos, para que jugaran 10.000 manos durante 12 d��as contra la m��quina. Tambi��n ha contado con financiaci��n de la Fundaci��n Nacional para la Ciencia de EE UU.

En una nota de prensa, la universidad aclara que Pluribus se basa en la tecnolog��a desarrollada en el laboratorio de Sandholm. "Tambi��n incluye un c��digo espec��fico de p��ker, escrito como una colaboraci��n entre Carnegie Mellon y Facebook para este estudio, que no se usar�� en aplicaciones destinadas a defensa". Y a?ade: "Para cualquier otro tipo de uso, las partes han acordado que pueden usar el c��digo como lo deseen". Esta m��quina no tendr�� aplicaciones militares, aseguran, pero la empresa de Sandholm desarrolla los logros de su laboratorio para el Pent��gono, en este mismo campo de conocimiento.

Facebook pag�� 50.000 euros a quince campeones profesionales de p��ker y podr�� usar el programa "como lo desee"

En marzo, el Ej��rcito de EE UU compromet��a 72 millones de d��lares (64 millones de euros) para un proyecto de inteligencia artificial que sirva para "investigar y descubrir capacidades que mejoren significativamente la efectividad de la misi��n en todo el Ej��rcito al aumentar los soldados, optimizar las operaciones, mejorar la preparaci��n y reducir las bajas". El consorcio lo lidera Carnegie Mellon.

"Desconozco que usos concretos pueden interesarle a Facebook y el Ej��rcito", admite la experta en inteligencia artificial Nuria Oliver, "pero entiendo que es aplicar este desarrollo a la toma de decisiones y la predicci��n del comportamiento humano". Oliver, doctora en este campo por el MIT y miembro de la Real Academia de Ingenier��a, se?ala que esta tecnolog��a puede generar problemas ��ticos en el campo de la autonom��a humana, ya que al ser capaz de predecir comportamientos tambi��n puede inducir acciones, "lo que ser��a una potencial violaci��n de la autonom��a". Adem��s, le genera dudas desde el punto de la vista de la transparencia de su uso y en el objetivo de minimizar el impacto negativo: "no ser mal��fico".

Hace un mes y medio, se publicaba tambi��n en la revista Science otro logro de la inteligencia artificial contra humanos expertos. En ese caso, era en un videojuego de disparar a tu enemigo, el Quake III Arena, que combina estrategia, acci��n y falta de informaci��n en algunos momentos en los que no sabe qu�� hace el rival. Ese logro lo firmaba DeepMind, la empresa de Google dedicada a la inteligencia artificial. Pero DeepMind se ha comprometido a evitar el uso de la inteligencia artificial para desarrollar armas aut��nomas, como numerosos acad��micos y otras compa?��as de este campo. Sandholm cree que se exageran las preocupaciones sobre el uso militar de estas tecnolog��as, ya que mantendr��n a EE UU a salvo. "Creo que la inteligencia artificial va a hacer del mundo un lugar mucho m��s seguro", dec��a el cient��fico a Wired en enero. Poco antes, Google tuvo que cancelar su participaci��n en el proyecto Maven, una colaboraci��n con el Pent��gono, por una revuelta de sus propios empleados, que se negaban en mejorar la visi��n de los drones del Ej��rcito, lo que facilitar��a su funci��n mort��fera. De nuevo, la ciencia y la tecnolog��a ante sus demonios.

Los faroles de la m��quina

Una de las claves para este logro que publica Science fue conseguir que Pluribus consiguiera simplificar enormemente la inabarcable cantidad de informaci��n y decisiones posibles que se ponen en marcha en una partida tan compleja. El ��xito de esta inteligencia artificial es justo lo contrario que aquel DeepBlue que derrot�� a Garry Kasp��rov. En lugar de tenerlo todo en mente a la hora de decidir la jugada, se trata de lograr simplificar las variables para centrarse de forma intuitiva en las jugadas ganadoras.

Por ejemplo, Pluribus no trata de adelantar los que suceder�� hasta el final de la partida, porque incorpora un algoritmo de b��squeda que limita deliberadamente su mirada hacia el futuro. Adem��s, los investigadores descubrieron que, de todas las opciones que tienen en mente los jugadores rivales, a la m��quina le bastaba con tener en cuenta tan solo cinco para ganar. La capacidad de abstracci��n de Pluribus se manifiesta en dos aspectos m��s: las cantidades apostadas y las distintas jugadas. Por ejemplo, a la m��quina le da igual que la apuesta sea de 200 o 201, y sus apuestas se centran en unas pocas opciones limitadas.

Del mismo modo, para no tener que estudiar cada una de las infinitas combinaciones de cartas por separado, Pluribus las agrupa: una escalera hasta el diez y una escalera hasta el nueve son, para la m��quina, estrat��gicamente lo mismo. "La abstracci��n informativa reduce dr��sticamente la complejidad del juego, pero puede eliminar diferencias sutiles que son importantes para el rendimiento sobrehumano. Por lo tanto, durante el juego real contra humanos, Pluribus solo la usa para razonar sobre situaciones en futuras rondas de apuestas, nunca en la ronda de apuestas actual", detalla el estudio. Esta m��quina, por el momento, se centra en sus propias estrategias y no busca explotar tendencias en sus oponentes, asegura el estudio. Combinados, estos avances hicieron posible ejecutar Pluribus utilizando muy poca capacidad de procesamiento y memoria, el equivalente a menos de 150 d��lares en recursos de computaci��n en la nube, seg��n explica Facebook.

Libratus, la versi��n previa del programa, aprendi�� sola a echar faroles. Uno de los aspectos m��s interesantes de Pluribus es su capacidad para poner cara de p��ker. No tiene una expresi��n corporal que pueda revelar su jugada, pero los profesionales s�� aprenden a reconocer patrones en el juego de los dem��s: c��mo apuestan cuando tienen buenas cartas, c��mo reaccionan cuando les retan, etc. "Su mayor fortaleza es su habilidad para usar estrategias mixtas", ha asegurado Darren El��as, jugador profesional que ostenta el r��cord de t��tulos ganados en el World Poker Tour. "Eso es justo lo que los humanos intentan hacer. Es una cuesti��n de ejecuci��n para los humanos: hacer esto de una manera perfectamente aleatoria y hacerlo de manera consistente. La mayor��a de la gente simplemente no puede", apunta el jugador. Pluribus calcula c��mo actuar��a con cada mano posible y luego decide una estrategia equilibrada con todas esas posibilidades: un farol algor��tmico para desconcertar a sus rivales.

Puede escribirnos a javier@esmateria.com o seguir a Materia en Facebook, Twitter, Instagram o suscribirse aqu�� a nuestra newsletter.

Tu suscripci��n se est�� usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci��n?

A?adir usuario Continuar leyendo aqu��

Si contin��as leyendo en este dispositivo, no se podr�� leer en el otro.

?Por qu�� est��s viendo esto?

Flecha

Tu suscripci��n se est�� usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci��n a la modalidad Premium, as�� podr��s a?adir otro usuario. Cada uno acceder�� con su propia cuenta de email, lo que os permitir�� personalizar vuestra experiencia en EL PA?S.

?Tienes una suscripci��n de empresa? Accede aqu�� para contratar m��s cuentas.

En el caso de no saber qui��n est�� usando tu cuenta, te recomendamos cambiar tu contrase?a aqu��.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar�� en tu dispositivo y en el de la otra persona que est�� usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu�� los t��rminos y condiciones de la suscripci��n digital.

Sobre la firma

Javier Salas

Jefe de secci��n de Ciencia, Tecnolog��a y Salud y Bienestar. Cofundador de MATERIA, secci��n de ciencia de EL PA?S, ejerce como periodista desde 2006. Antes, trabaj�� en Informativos Telecinco y el diario P��blico. En 2021 recibi�� el Premio Ortega y Gasset.