Las m¨¢quinas comienzan a mirar el mundo con ojos humanos
Un programa de Google DeepMind es capaz de generar un mapa en 3D a partir de una simple foto
Uno de los grandes retos de la inteligencia artificial es el de desenvolverse en un entorno natural, m¨¢s all¨¢ de instrucciones precisas y situaciones controladas. Por ejemplo, los desarrolladores del fascinante AlphaGo, el programa capaz de arrasar a los campeones del milenario juego Go, reconoc¨ªan que si de pronto sumaran un cuadrante m¨¢s al tablero estar¨ªan perdidos. Del mismo modo, un brazo rob¨®tico necesita condiciones muy concretas para poder desarrollar su tarea. No son capaces de observar el entorno, abrir el foco, deducir que se ha producido un cambio sustancial y adaptarse a ¨¦l.
Al ver una estancia en la que un cubo rojo tapa a una bola verde, el programa imagina que, desde el lado opuesto, es la bola la que no deja ver al cubo
Uno de los principales obst¨¢culos est¨¢ en la forma de mirar de las m¨¢quinas. Los mam¨ªferos, por ejemplo, sabemos identificar m¨²ltiples factores de un solo vistazo: objetos superpuestos, incidencia de la luz, distancias... Todo se suma en una ¨²nica representaci¨®n mental del espacio que permite interactuar con ¨¦l. Y es ese objetivo el que mueve a Google DeepMind, la divisi¨®n de inteligencia artificial del gigante tecnol¨®gico, que acaba de publicar unos llamativos logros en la revista Science.
DeepMind presenta una serie de pruebas virtuales realizadas con GQN, un programa capaz de formarse una representaci¨®n abstracta de lo que hay frente a sus ojos a partir de un par de simples vistazos. As¨ª fue como esta empresa venci¨® al Go: en lugar de pensar en cada ficha y cada movimiento, consiguieron que la m¨¢quina viera la partida en un plano general, identificando a grandes rasgos c¨®mo y por d¨®nde deb¨ªan discurrir las jugadas. Hasta ahora, cuando se pretende que una m¨¢quina imagine un mapa de lo que est¨¢ viendo, se la alimenta con toneladas de informaci¨®n: numerosas im¨¢genes y etiquetas que ayuden a identificar objetos y escenarios.
Pero el abordaje de DeepMind es tan elegante como complejo: su m¨¢quina solo ve un par de fotos en dos dimensiones de la escena y, a partir de ah¨ª, es capaz de hacerse una composici¨®n de lugar en 3D de todo el paisaje. Al ver una estancia en la que un cubo rojo tapa por delante a una bola verde, este programa logra imaginar que, desde el lado opuesto de la sala, es la bola verde la que apenas deja ver al cubo rojo.
As¨ª fue como esta empresa venci¨® al Go: en lugar de pensar en cada ficha y cada movimiento, consiguieron que la m¨¢quina viera la partida en un plano general
"En este trabajo, hemos demostrado que una sola arquitectura neuronal puede aprender a percibir, interpretar y representar escenas sint¨¦ticas sin ning¨²n etiquetado humano de los contenidos de estas escenas", explican los investigadores de DeepMind en su estudio, liderado por S. M. Ali Eslami. De este modo, es capaz de producir esas im¨¢genes precisas y consistentes de la escena desde nuevos puntos de vista. La m¨¢quina aprende por s¨ªntesis, "lo que le permite expresar la presencia de texturas, partes, objetos, luces y escenas de manera concisa y en un nivel de abstracci¨®n adecuadamente alto", seg¨²n DeepMind.
Es decir, captura y sintetiza los detalles importantes de su entorno, como las posiciones, aspecto y colores de m¨²ltiples objetos, la configuraci¨®n de los ¨¢ngulos de uni¨®n de un brazo de robot o el dise?o de un laberinto. Esta inteligencia artificial absorbe todos los detalles estad¨ªsticamente significativos, como patrones habituales, texturas, colores y simetr¨ªas comunes para concentrar toda su capacidad en realizar una descripci¨®n concisa y abstracta de la escena. As¨ª la m¨¢quina es capaz de inferir la composici¨®n general, en lugar de perderse en innumerables detalles concretos. Adem¨¢s, GQN aprende este comportamiento por s¨ª mismo y de una forma que le permite aplicarlo en cualquier entorno, sin ninguna especificaci¨®n previa de las leyes de perspectiva o de iluminaci¨®n, como suceder¨ªa con un humano.
"Nuestro trabajo ilustra un enfoque poderoso para el aprendizaje autom¨¢tico de representaciones de escenas", explica DeepMind, "allanando el camino hacia la comprensi¨®n, imaginaci¨®n, planificaci¨®n y comportamiento de escenas sin ninguna supervisi¨®n". En resumen, percibir e interpretar el mundo en solitario, como cualquiera de nosotros. Hace poco esta misma empresa consigui¨® recrear de cero el habla humana de una forma tan realista que incluso preocupa a los especialistas.
La m¨¢quina aprende este comportamiento por s¨ª misma y de una forma que le permite aplicarla en cualquier entorno
La ventaja a?adida de este m¨¦todo es que las representaciones que reflejan de manera sucinta la composici¨®n del entorno permiten a las m¨¢quinas actuar en esos entornos de forma m¨¢s s¨®lida y con menos interacciones. Por ejemplo, en lugar de especificar la forma precisa de un brazo rob¨®tico, esta inteligencia artificial puede apreciar a grandes rasgos la configuraci¨®n de sus uniones y los ¨¢ngulos en los que se mueve, y a partir de esa abstracci¨®n es m¨¢s f¨¢cil que se adapte a una realidad inestable y cambiante como la del mundo real.
Aunque precisamente ah¨ª est¨¢ la mayor pega de este estudio: solo ha sido probado con im¨¢genes y entornos generados por ordenador, por las dificultades de estudiarlo en un entorno totalmente controlado. "Lo m¨¢s importante es que sus experimentos est¨¢n restringidos a escenas 3D simples que consisten en unos pocos objetos geom¨¦tricos b¨¢sicos", se?ala en Science el especialista?Matthias Zwicker, de la Universidad de Maryland. Y a?ade: "Por lo tanto, no est¨¢ claro lo cerca que se encuentra de comprender entornos complejos del mundo real, lo que lo har¨ªa ¨²til, por ejemplo, para desarrollar el control pr¨¢ctico de los robots". "No obstante, su t¨¦cnica introduce una serie de contribuciones cruciales que probablemente lo hagan posible en el futuro", afirma Zwicker.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.