La inteligencia artificial ya aprende sola a ser invencible
El ¨²ltimo algoritmo de Google prescinde del conocimiento humano y se?ala que puede ser un lastre
Es solo un juego de mesa. Pero el tablero del go, este complejo ajedrez oriental, es el terreno elegido para explorar las fronteras de la inteligencia artificial que en el futuro ayuden a "resolver todo tipo de problemas apremiantes del mundo real", en palabras de Demis Hassabis, l¨ªder de Google DeepMind. Esta divisi¨®n de la multimillonaria tecnol¨®gica ya logr¨® crear un programa ganador de go, AlphaGo, capaz de derrotar a los campeones mundiales desnudando muchos secretos de la mente humana. Ahora han ido un paso m¨¢s all¨¢ al desarrollar un programa capaz de aplastar a todas las versiones previas del todopoderoso AlphaGo aprendiendo de cero y sin ayuda. Una m¨¢quina que se ense?a a s¨ª misma, sin ejemplos de partidas reales ni intervenci¨®n humana, hasta convertirse en invencible. Y adem¨¢s lo logr¨® con una fuerza incomparable, en un tiempo r¨¦cord y consumiendo una cantidad m¨ªnima de recursos inform¨¢ticos.
Esta nueva versi¨®n desarrollada por DeepMind cuenta con un algoritmo que le permite aprender a ganar de la nada, practicando consigo misma
El programa original se hab¨ªa entrenado estudiando millones de movimientos reales de miles de partidas jugadas entre humanos, un monumental paso previo antes de comenzar a entrenarse jugando contra s¨ª mismo hasta convertirse en imbatible. Pero esta nueva versi¨®n desarrollada por DeepMind, denominada AlphaGo Zero, cuenta con un nuevo algoritmo que le permite aprender a ganar de la nada, a solas con el tablero y las fichas. El nuevo algoritmo se apoya en una red neuronal basada en el aprendizaje por refuerzo: la m¨¢quina sabe ense?arse sola practicando consigo misma hasta alcanzar una capacidad muy superior a la de sus versiones previas.
El equipo de DeepMind quer¨ªa ilustrar c¨®mo la inteligencia artificial puede ser eficiente frente a aquellos retos en los que no se cuente con datos suficientes o conocimientos previos para guiar a la m¨¢quina hacia una soluci¨®n ¨®ptima, como explican en el estudio que les publica la revista Nature. "Nuestros resultados demuestran", escriben, "que un enfoque de aprendizaje por refuerzo puro es completamente factible, incluso en los dominios m¨¢s exigentes: es posible entrenar a un nivel sobrehumano, sin ejemplos humanos ni orientaci¨®n, sin m¨¢s conocimiento del campo que las reglas b¨¢sicas". La idea ya no es superar a los humanos subiendo sobre sus hombros, sino llegar donde ellos no est¨¢n ni pueden ayudar.
La m¨¢quina autodidacta derrot¨® a una m¨¢quina igual de potente pero ense?ada con informaci¨®n de partidas humanas en solo 24 horas
Partiendo de cero, con movimientos aleatorios, AlphaGo Zero comenz¨® a entender las nociones de este complej¨ªsimo juego de piedras blancas y negras que deben ir ganando territorio en un tablero de 19 por 19 cuadrantes. En solo tres d¨ªas, tras jugar contra s¨ª misma casi cinco millones de veces, esta m¨¢quina venci¨® a la exitosa versi¨®n previa que derrot¨® por primera vez a un campe¨®n de talla mundial. Aquella m¨¢quina original necesit¨® meses de entrenamiento y 30 millones de jugadas. El algoritmo actual es tan eficiente que se hizo invencible con tan solo cuatro chips especializados frente a los 48 que necesitaba su predecesora de 2015. AlphaGo Zero derrot¨® a AlphaGo por 100 a cero.
Lo m¨¢s interesante es lo que esta nueva m¨¢quina nos ense?a sobre el aprendizaje, sobre (lo prescindible de) nuestros conocimientos y nuestra inteligencia. "A las 3 horas, el juego se centra en comer piedras con avaricia, como un principiante humano", detalla el estudio. "A las 19 horas, el juego exhibe los fundamentos de vida y muerte, la influencia y el territorio", contin¨²a. A las 70 horas, la m¨¢quina es extraordinariamente capaz, a niveles sobrehumanos, capaz de visualizar estrategias sofisticadas impensables para los jugadores de carne y hueso. Y en 40 d¨ªas es invencible.?
La idea ya no es superar a los humanos subiendo sobre sus hombros, sino llegar donde ellos no est¨¢n ni pueden ayudar
De forma intuitiva, la m¨¢quina fue descubriendo t¨¢cticas, posiciones y movimientos que el talento humano hab¨ªa ido perfeccionando durante miles de a?os. Pero descubri¨® por s¨ª misma otras estrategias innovadoras desconocidas que le resultaban m¨¢s eficientes y opt¨® por abandonar los movimientos cl¨¢sicos humanos. Esa creatividad del algoritmo, uno de los hallazgos m¨¢s notables de DeepMind, ya pudo verse en su famosa batalla contra el campe¨®n Lee Sedol, de quien siempre se recordar¨¢ su gesto, ojipl¨¢tico y boquiabierto, al observar un brillante movimiento ganador de AlphaGo.
Es m¨¢s, AlphaGo Zero ha demostrado que el conocimiento humano puede incluso ser un lastre a la hora de alcanzar mayores niveles de efectividad. Los especialistas de DeepMind alimentaron a una copia de este algoritmo con informaci¨®n de partidas reales entre humanos, para comparar su rendimiento con la versi¨®n autodidacta. El resultado: la m¨¢quina autodidacta derrot¨® a la m¨¢quina ense?ada por humanos en las primeras 24 horas de entrenamiento. "Esto sugiere que AlphaGo Zero puede estar aprendiendo una estrategia que es cualitativamente diferente del juego humano", concluyen los investigadores de Google.
La verdadera capacidad de las m¨¢quinas
DeepMind ya hab¨ªa logrado que las m¨¢quinas aprendieran solas a ganar, como hizo con videojuegos cl¨¢sicos. Pero el nivel de sofisticaci¨®n del go, con m¨¢s posibilidades en el tablero que ¨¢tomos en el universo, lo convierte en mejor prueba que los marcianitos. Sobre todo si, como asegura Hassabis, pretenden usar estos desarrollos para solucionar cuestiones tan dif¨ªciles como el plegamiento de prote¨ªnas o el desarrollo de nuevos materiales: "Si podemos lograr con estos problemas el mismo progreso que con AlphaGo, tiene el potencial de impulsar el conocimiento humano e impactar positivamente en todas nuestras vidas"
"AlphaGo Zero puede estar aprendiendo una estrategia que es cualitativamente diferente al juego humano", concluyen los investigadores de Google
Conocidos los resultados de DeepMind, conviene recordar la Ley de Amara, propuesta por el cient¨ªfico Roy Amara: "Tendemos a sobrestimar el efecto de una tecnolog¨ªa a corto plazo y subestimar su efecto en el largo plazo". Este algoritmo de Google no tiene rival a la hora de ense?arse a s¨ª mismo a ganar al go, pero hoy por hoy est¨¢ muy limitado por la tarea encomendada. As¨ª lo reconocieron sus desarrolladores hace unos meses, preguntados por qu¨¦ pasar¨ªa si de pronto le cambiaran a AlphaGo las dimensiones del tablero de 19x19 a 29x29: "Estar¨ªamos muertos". Un jugador humano sabr¨ªa adaptarse sin mayores problemas al cambio.
Como contexto, un estudio del mes pasado publicado por investigadores de la Academia de Ciencias de China sobre el riesgo real de la inteligencia artificial analizando sus actuales capacidades. As¨ª, estudiaron cu¨¢l ser¨ªa el coeficiente intelectual de los distintos sistemas de inteligencia artificial, llegando a la conclusi¨®n de que son como ni?os peque?os: el de Google es de 47, el doble que el de Siri (24). Tomando en consideraci¨®n las habilidades de los sistemas en torno a su "dominio del conocimiento, aprendizaje, uso y creaci¨®n", llegaron a la conclusi¨®n de que la inteligencia general de AlphaGo (la versi¨®n de 2016) est¨¢ por debajo de la humana. Eso s¨ª, se?alaban que para subir un pelda?o en sus capacidades intelectuales AlphaGo necesitaba demostrar la creatividad necesaria para ense?arse a s¨ª mismo a ganar. Y ese reto ya lo ha superado.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.