Sobrepasados por el ¡®big data¡¯
La cantidad y variedad de la informaci¨®n almacenada en la nube supone un reto para los analistas, que buscan nuevas t¨¦cnicas de procesamiento
Hace 12 a?os la startup Farecast desarroll¨® un sistema mediante el cual predec¨ªa el precio de los billetes de avi¨®n. Esto ayudaba a sus usuarios a comprar en el mejor momento, pues alertaba de posibles subidas y bajadas. Microsoft se hizo con la compa?¨ªa, en 2008, por 115 millones de d¨®lares. Este caso es un precedente en la corta historia del big data, no solo porque muestra uno de los primeros casos de uso de datos a gran escala, sino tambi¨¦n porque evidenci¨® c¨®mo pod¨ªa cambiar el modelo de negocio usando la propia informaci¨®n de las aerol¨ªneas. El an¨¢lisis de datos masivos ha transformado los mercados, la forma de gestionar las ciudades e incluso la manera en la que las personas se relacionan entre ellas. En cambio, todav¨ªa se encuentra en una fase incipiente de su desarrollo. El volumen de datos que se almacena, as¨ª como su variedad, supone un reto t¨¦cnico: ?C¨®mo extraer conocimiento de semejante acopio?
Rafael Lahoz-Beltra es profesor de Biomatem¨¢ticas en la Universidad Complutense de Madrid. Ha escrito el libro Estad¨ªstica y Big Data, de la colecci¨®n Grandes ideas de las matem¨¢ticas, que recorre el proceso que va desde la estad¨ªstica b¨¢sica al an¨¢lisis de los macrodatos. Sostiene que el big data ¡°no hace m¨¢s que recuperar las t¨¦cnicas tradicionales de estad¨ªstica y las de la inteligencia artificial de los a?os 60 y 70¡± ¡ªaunque el concepto parezca novedosos, el inicio de la IA se sit¨²a en los a?os 50, de la mano de Alan Turing¡ª. El profesor considera que ¡°todo el c¨¦lebre big data se resume en hacer peque?as predicciones, clasificaciones, identificaciones de sujetos de un grupo¡±. Si bien, ahora las t¨¦cnicas tradicionales se ven superadas por un caudal incesante de informaci¨®n. En sus primeros a?os de vida Farecast ya filtraba doscientos mil millones de registros de vuelos.
Aunque la informaci¨®n que manejan las grandes compa?¨ªas se mide en miles de millones, el profesor quiere?restar distancia entre las personas y el big data. ¡°Existen programas muy sencillos y gratis, como R, con el que cualquier persona en su casa puede aprender t¨¦cnicas de an¨¢lisis¡±. Lahoz-Beltra defiende que las matem¨¢ticas ¡°permiten una aproximaci¨®n m¨¢s sencilla a fen¨®menos muy complejos¡±, con lo que es preciso conocer algunas posibilidades pr¨¢cticas de este campo.
?l, que es bi¨®logo, ha empleado t¨¦cnicas big data en varios estudios. Uno de ellos estableci¨® una relaci¨®n entre la risa y la depresi¨®n. Registraron la manera de re¨ªrse de pacientes sanos y con depresi¨®n y formularon un patr¨®n por el que, gracias al sonido de la quinta carcajada, pudieron predecir con un 85% de acierto qu¨¦ pacientes sufr¨ªan esta enfermedad. ¡°Vimos que, curiosamente, hombres y mujeres no r¨ªen igual¡±, revela el profesor.
La nube ocupa y consume
La nube tiene una estructura f¨ªsica: los centros de datos que albergan superordenadores en los que se almacena la informaci¨®n. El m¨¢s potente de Espa?a se encuentra en Alcal¨¢ de Henares y pertenece a Telef¨®nica ¡ªla superficie total es de 75 kil¨®metros cuadrados¡ª, pero est¨¢n por todo el territorio y son tanto de ¨¢mbito p¨²blico como privado.
Google, uno de los mayores guardianes de datos del mundo, acaba de invertir 600 millones de euros en la construcci¨®n de un nuevo centro en Dinamarca. Ser¨¢ la quinta sede de datos de la compa?¨ªa en Europa, despu¨¦s de Irlanda, Finlandia, los Pa¨ªses Bajos y B¨¦lgica. Estas sedes tienen un coste para el medio ambiente: se considera que el 3% de la energ¨ªa que se produce en el mundo la consumen los data center. La compa?¨ªa se ha comprometido a que el uso de energ¨ªa de este nuevo centro sea libre de carbono. "Estamos buscando nuevas oportunidades de inversi¨®n (denominadas Acuerdos de Compra de Energ¨ªa o PPA) en proyectos de energ¨ªa renovable en Dinamarca, como energ¨ªa e¨®lica terrestre, energ¨ªa e¨®lica marina y solar", declaran en su blog.
Tradicionalmente los datos que manejaban los cient¨ªficos se reduc¨ªan a n¨²meros y palabras, con lo que se pod¨ªan estructurar de manera sencilla mediante tablas. ¡°Por ejemplo si ten¨ªas el historial de un paciente ten¨ªas el sexo, que es una palabra, y los datos de un an¨¢lisis, que eran num¨¦ricos¡±, apunta. Lahoz-Beltra expone que ¡°ahora la variedad es espectacular y no est¨¢ estructurada, porque tienes una resonancia metida en un CD, que no es ni n¨²mero, ni texto. ?Qu¨¦ haces con un PDF o un v¨ªdeo de Youtube?¡±.
Internet presente otro dilema en la clasificaci¨®n: la mentira. Los perfiles de usuarios en redes sociales, p¨¢ginas webs y pseudodiarios digitales llenan la Red de informaci¨®n falsa. El profesor recuerda que ¡°la inteligencia artificial a¨²n no sabe identificar qu¨¦ es verdad y qu¨¦ mentira, tampoco qu¨¦ es pertinente¡±.Richard Benjamins, embajador de big data de Telef¨®nica, explica que para almacenar los datos ¡°cuanto m¨¢s se estructuran m¨¢s f¨¢cil los puedes usar, pero luego son m¨¢s dif¨ªciles de reutilizar¡±. As¨ª que las empresas buscan un equilibro entre almacenar datos ¡°en crudo¡± y ya disgregados. ¡°Cuando empez¨® el big datahace 10 a?os se intentaba guardar todo en los llamados lagos de datos, pero luego se han dado cuenta de que si no estructuras nada, tienes un pozo en el que no se puede encontrar nada¡±.
Dependiendo del sector los datos se guardar¨¢n durante un periodo de tiempo m¨¢s o menos extenso. Bejamins se?ala que en el caso de las aseguradoras, debido al tipo de productos que ofrecen a largo plazo, pueden ser entre 15 y 20 a?os, mientras que un banco solo los retendr¨¢ unos 5 a?os.
La Corporaci¨®n Internacional de Datos asegura que en 2020 habr¨¢ casi tantos bits digitales como estrellas en el universo y establece que ese mismo a?o se generar¨¢n 44 zetabytes de informaci¨®n. ¡°Eso son 10 elevado a 12 gigas, 44 con doce ceros¡±, repite Lahoz-Beltra con asombro. Almacenar estas cantidades tiene un coste. Benjamins da un ejemplo: ¡°Si tienes 40 o 100 millones de registros a lo mejor puedes pagar al mes centenas de miles de euros¡±. Sin embargo, el coste mayor es el de procesamiento.
Los dilemas ¨¦ticos
Netflix cre¨® la serie House of cards bas¨¢ndose en los gustos de sus usuarios. Recopilaron desde qu¨¦ tem¨¢ticas triunfaban hasta qui¨¦nes eran los actores m¨¢s apreciados. La serie fue un ¨¦xito (aunque con final sentenciado por la vida real de uno de sus actores y no por el big data). La plataforma on line recomienda series y pel¨ªculas seg¨²n las ¨²ltimas visualizaciones del usuario y las tendencias del momento. Lo mismo hace Amazon con productos basados en las b¨²squedas anteriores. En el libro Big data: la revoluci¨®n de los datos masivos (2013), Viktor Mayer-Sch?nberger, profesor de Regulaci¨®n y gobernanza en Internet de la Universidad de Oxford, y Kenneth Cukier, periodista especializado en tecnolog¨ªa, ya se preguntaban ¡°?qu¨¦ papel les queda a la intuici¨®n, la fe, la incertidumbre el obrar en contra de la evidencia y de aprender de la experiencia?¡±.
Los dilemas van m¨¢s all¨¢, como se vio en el caso de venta de datos por parte de Facebook a la empresa brit¨¢nica Cambridge Analytica. En cambio, el Observatorio Nacional de las Telecomunicaciones y Sociedad de la Informaci¨®n revel¨® el pasado octubre que el 43,1% de los usuarios encuestados conf¨ªa bastante o mucho en Internet y un 46,4% lo percibe como m¨¢s seguro cada d¨ªa.
Algunas aplicaciones del big data son cuestionadas, pero otras han mejorado desde las t¨¦cnicas sanitarias a la movilidad, como el estudio de Lahoz-Beltra o los datos que las antenas de Telef¨®nica recogen en Madrid, Barcelona o Zaragoza, gracia a los cuales el transporte se gestiona de manera m¨¢s eficiente. Benjamins aclara que no se venden los datos, sino que ofrecen informaci¨®n ya procesada sobre los ciclos de circulaci¨®n. El experto reconoce que si bien hay cierta incertidumbre sobre el big data, ¡°no debemos tener miedo¡± porque ¡°hay m¨¢s oportunidades que aprovechar para mejorar que riesgos¡±.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.