El ¡®big data¡¯ ya no necesita a los humanos
Un software es capaz de realizar predicciones a partir de grandes vol¨²menes de datos digitales sin intervenci¨®n humana y en una fracci¨®n del tiempo requerido por un analista

El mundo est¨¢ cada vez m¨¢s informatizado e interconectado, y se generan cantidades ingentes de datos digitales. Desde nuestros tel¨¦fonos m¨®viles, tarjetas de cr¨¦dito, ordenadores, sensores en coches y ciudades, el volumen de informaci¨®n que generamos se incrementa constantemente y se acumula, esperando ser analizado. Dicho an¨¢lisis puede mejorar la gesti¨®n de los negocios, permitir¨ªa realizar predicciones en multitud de campos y revelar¨ªa relaciones causa-efecto entre los datos que han podido pasar desapercibidas. Por estas razones el perfil del?data scientist, o analista de datos, es uno de los m¨¢s solicitados en Silicon Valey.
Si bien el an¨¢lisis de estos datos requiere del uso de ordenadores y programas inform¨¢ticos, tambi¨¦n requiere de cierta intuici¨®n por lo que el factor humano juega un papel importante. Son los analistas quienes deciden qu¨¦ colecciones de datos se van a analizar y qu¨¦ tipo de relaciones se va a buscar entre ellos.
Vemos el Data Science Machine como un complemento natural a la inteligencia humana¡±
Esta necesidad puede haberse visto superada gracias a un nuevo sistema desarrollado por ingenieros del Instituto Tecnol¨®gico de Massachusetts (MIT por sus siglas en ingl¨¦s) al que han bautizado Data Science Machine o DSM. Se trata de un software capaz de encontrar patrones en las relaciones entre los datos y realizar predicciones a partir de las mismas mejor que la mayor¨ªa de los humanos y en un periodo de tiempo mucho menor.
¡°A partir de nuestra experiencia realizando an¨¢lisis de datos hemos visto que uno de los pasos cr¨ªticos es identificar las variables que se van a extraer de la base de datos¡±, explica Kalyan Veeramachaneni, investigador en el Laboratorio de Inform¨¢tica e Inteligencia Artificial del MIT, co-creador del DSM junto con Max Kanter, un estudiante de m¨¢ster en el mismo departamento. Para identificar estas variables el software comienza por buscar las relaciones inherentes en el dise?o de las bases de datos. En ellas habitualmente se clasifican datos diferentes en tablas separadas, indicando la existencia de relaciones entre ellos con etiquetas num¨¦ricas. El programa desarrollado por Veeramachaneni y Kanter analiza estas etiquetas y las usa como gu¨ªa para buscar correlaciones entre los datos.
Por ejemplo, una base de datos puede contener en una tabla una lista de productos y su coste, y en otra tabla, una lista de art¨ªculos que han sido adquiridos por ciertos clientes. El sistema comenzar¨ªa por importar los costes de la primera tabla a la segunda, generando una serie de caracter¨ªsticas a partir de ellas: coste total de las compras, coste medio, coste m¨ªnimo y as¨ª sucesivamente. Cuantas m¨¢s tablas y m¨¢s relaciones existan entre ellas, m¨¢s variables puede estudiar. Si est¨¢n disponibles, el programa tambi¨¦n puede incluir en el an¨¢lisis los denominados ¡°datos categ¨®ricos¡± que son aquellos cuyos valores est¨¢n restringidos a un rango de valores como es el caso de nombres de marcas o d¨ªas de la semana. Con ellos genera a¨²n m¨¢s caracter¨ªsticas que, potencialmente, pueden tener un valor predictivo.
El DSM ha quedado por delante de m¨¢s de la mitad de los participantes humanos en todas las competiciones a las que se ha presentado
Una vez hecho esto, el software comienza a ver qu¨¦ relaciones num¨¦ricas existen entre el conjunto de caracter¨ªsticas que ha generado previamente. Si existe una relaci¨®n, el programa probar¨¢ una serie de operaciones que dar¨¢n lugar a predicciones, que se recombinan de distintas maneras para optimizar su precisi¨®n.
Para poner a prueba su sistema, Veeramachaneni y Kanter se inscribieron en tres competiciones de an¨¢lisis de datos en los que se enfrentaron a equipos humanos. El DSM qued¨® por delante de m¨¢s de la mitad de los participantes en todas ellas y, aunque no consigui¨® el mejor resultado en ning¨²n caso, logr¨® crear unas predicciones casi tan acertadas como las de los equipos ganadores. En lo que el DSM fue el ganador indiscutible fue en el tiempo empleado en realizar su trabajo: tard¨® tan s¨®lo entre dos y doce horas en obtener sus resultados mientras que a los otros equipos les llev¨® entre uno y dos meses. ¡°Si el resultado es adecuado para los objetivos del problema no es necesario trabajar m¨¢s en ello¡± concluyen los autores en un art¨ªculo presentado en la International Data Science and Advanced Analytics Conference, una de las reuniones m¨¢s importantes de la industria, celebrada recientemente en Par¨ªs.
A pesar del ¨¦xito demostrado, los autores insisten en que su sistema no se ha desarrollado con la idea de reemplazar a los humanos. Seg¨²n Veeramachaneni, ¡°el DSM puede producir un primer modelo que los humanos pueden refinar. En el mundo real lo primero que hace el analista es realizar un estudio preliminar para determinar si los datos tienen alg¨²n poder predictivo de cara a un resultado concreto. En estas circunstancias el DSM puede dar una respuesta de manera muy r¨¢pida¡±.
¡°Vemos el Data Science Machine como un complemento natural a la inteligencia humana¡±, apunta Kanter, ¡°hay much¨ªsimos datos esperando ser analizados y ahora mismo no se hace nada con ellos. Ya hemos recibido ofertas de compa?¨ªas interesadas en utilizar nuestra tecnolog¨ªa, que hemos comenzado a comercializar a trav¨¦s de una compa?¨ªa llamada FeatureLab¡±.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.