Un tuit..., ?un voto?
La revoluci¨®n del ¡®big data¡¯, con su recogida masiva de informaci¨®n, promete cambiar los sondeos de opini¨®n. Pero las ¨²ltimas experiencias electorales aconsejan emplear estas t¨¦cnicas como complemento a los m¨¦todos tradicionales
En mayo de 2010, cuatro profesores de la Universidad T¨¦cnica de M¨²nich publicaron un estudio sobre las elecciones celebradas el a?o anterior en Alemania. A primera vista, el documento no era gran cosa: los autores ratificaban el resultado de las elecciones nueve meses despu¨¦s de que se hubieran celebrado. Lo que resultaba m¨¢s llamtivo era c¨®mo hab¨ªan elaborado el estudio sobre la intenci¨®n de voto sus autores: hab¨ªan contado el n¨²mero de menciones que recib¨ªa cada partido en Twitter durante las cuatro semanas anteriores a los comicios. Result¨® que el n¨²mero de tuits correspondiente a cada partido se aproximaba mucho al porcentaje final de votos obtenidos, m¨¢s incluso que los resultados que hab¨ªan pronosticado las encuestas previas a la votaci¨®n. La ecuaci¨®n se antojaba sencilla: a m¨¢s tuits, m¨¢s votos.
El ensayo parec¨ªa indicar que la demoscopia pod¨ªa cambiar para siempre gracias al uso del big data (datos a gran escala) y, m¨¢s en concreto, gracias a los datos que generamos a diario cuando utilizamos las redes sociales. En Espa?a existen aproximadamente 13 millones de usuarios de Twitter. De media, tuitean cinco veces al d¨ªa. Eso representa un enorme volumen de texto, equivalente a la escritura de 2.000 ejemplares diarios de la Biblia. Supongamos que alguien intentase leer todos esos tuits. ?No acabar¨ªa comprendiendo mucho mejor los pensamientos (banales, profundos, mezquinos) de sus conciudadanos? De ser as¨ª, ?por qu¨¦ no emplear todos esos datos para prever qu¨¦ ocurrir¨¢ cuando esos ciudadanos acudan a las urnas?
Lo que suelen responder quienes se dedican a los sondeos es que "el tama?o no importa". Las muestras reducidas son ¨²tiles si son representativas de la poblaci¨®n en general; por ejemplo, si se escoge a las personas de forma aleatoria. En cambio, otras muestras m¨¢s amplias pueden ser incluso perjudiciales si no son t¨ªpicas de la poblaci¨®n en general. Los usuarios de Twitter son muy numerosos, pero no son una muestra representativa (suelen ser m¨¢s j¨®venes y m¨¢s de izquierdas), y los tuits recogidos aleatoriamente no representan tampoco la opini¨®n general ni en Twitter ni en la poblaci¨®n.
Recientemente, las elecciones generales brit¨¢nicas en 2015 mostraron la falta de consistencia de la ecuaci¨®n a m¨¢s tuits, m¨¢s votos. Antes de los comicios, un grupo de investigadores predijo que el Partido Nacional Escoc¨¦s (SNP), que recib¨ªa muchos tuits favorables, obtendr¨ªa el 9,2% de los votos, una cifra 0,5 puntos superior al porcentaje que representa Escocia en la poblaci¨®n total de Reino Unido. Hay muchos escoceses que utilizan Twitter y muchos escoceses que apoyan al SNP, pero estos ¨²ltimos suelen ser m¨¢s activos que quienes no lo son, por lo que es imposible intentar hacer previsiones sobre resultados electorales bas¨¢ndose en los tuits.
En las elecciones brit¨¢nicas de 2015, lo hicieron tan mal los sondeos como los analistas del big data
?Significa esto que debemos conformarnos con los m¨¦todos tradicionales de encuesta? No necesariamente. En las elecciones brit¨¢nicas de 2015, fallaron rotundamente tanto los sondeos de opini¨®n tradicionales como los analistas del big data. Todas las previsiones basadas en encuestas (incluida la m¨ªa) dec¨ªan que el Partido Laborista y el Conservador iban a obtener pr¨¢cticamente un empate. Sin embargo, los conservadores lograron una victoria contundente, seis puntos por encima de los laboristas.
Los motivos de este fracaso ¡ªy de otros fracasos demosc¨®picos recientes en Israel y Argentina¡ª no est¨¢n claros todav¨ªa. Pero seguramente tienen que ver con el peque?o secreto que guarda el sector: las muestras que utilizan las empresas de encuestas son cada vez menos representativas de una muestra aleatoria de la poblaci¨®n. Es dif¨ªcil que algunos m¨¦todos de sondeo (entrevistas telef¨®nicas, grupos de Internet) reflejen ciertos sectores de la poblaci¨®n. Si una muestra tiene, por ejemplo, menos personas mayores de las que hay en general, las empresas dan m¨¢s peso del debido a las personas mayores entrevistadas.
La reponderaci¨®n est¨¢ muy bien con aspectos como la edad y el sexo, porque los censos nacionales nos permiten saber cu¨¢ntas personas componen cada categor¨ªa demogr¨¢fica. Ahora bien, cuando se trata de otros atributos, no podemos recalibrar de forma tan sencilla. Uno de los problemas en Reino Unido ha sido que en las muestras hab¨ªa poca representaci¨®n de las personas pol¨ªticamente menos activas, que colgaban el tel¨¦fono a los encuestadores y no participaban en los grupos de Internet. Esto es mucho m¨¢s dif¨ªcil de corregir mediante una reponderaci¨®n, porque el censo, obviamente, no registra cu¨¢ntas personas tienen inter¨¦s por la pol¨ªtica.
Los problemas de predicci¨®n que tienen las encuestas tradicionales no son tan graves como los que tiene el uso del big data. Daniel Gayo-Avello, de la Universidad de Oviedo, se ha dedicado a estudiar los aciertos de las previsiones basadas en Twitter, y su conclusi¨®n es que, en general, son menos que los aciertos que han obtenido las encuestas. As¨ª que la recogida masiva de datos no se ha popularizado porque nos ayude a predecir mejor los resultados electorales, sino porque contribuye a que los partidos identifiquen a los votantes y puedan dirigirse a ellos.
La recogida masiva de datos se ha popularizado porque ayuda a identificar a los votantes, no por sus predicciones
En julio del a?o pasado, el Partido Laborista brit¨¢nico puso en marcha una herramienta de Internet capaz de decir a una persona qu¨¦ n¨²mero de ni?o era dentro del Servicio Nacional de Salud (NHS). Ped¨ªa la fecha de nacimiento, una direcci¨®n de correo electr¨®nico y un c¨®digo postal y dec¨ªa a cambio el n¨²mero aproximado (yo nac¨ª en 1982 y el NHS se fund¨® en 1948; por consiguiente, soy aproximadamente el ni?o n¨²mero 24 millones). Era una herramienta ingeniosa por varios motivos. Hac¨ªa que la gente pensara en el NHS, una cuesti¨®n en la que los laboristas ten¨ªan ventaja respecto a los conservadores. Obligaba a decir la fecha de nacimiento, un elemento ¨²til para agrupar a los votantes, pero tambi¨¦n para relacionar datos. Y, como ped¨ªa un c¨®digo postal, permit¨ªa que el partido cruzara los datos con los del censo electoral. Los que usaban la herramienta recib¨ªan correos del partido, con mensajes que muchas veces pon¨ªan especial ¨¦nfasis en la sanidad.
'Puerta' a 'puerta'
- EE UU. La campa?a para la reelecci¨®n de Obama fue pionera. Se asign¨® a cada votante una nota de probabilidad en varias dimensiones, como la posibilidad de hacer donaciones o la dificultad para persuadirles de que votaran a Obama. As¨ª se centraban en una serie de electores. Para afinar tanto es clave que la gran cantidad de informaci¨®n a la que los partidos tienen acceso en ese pa¨ªs, comprada no por poco dinero a brokers de datos comerciales.
- Reino Unido. Los tres partidos principales recurrieron a plataformas de big data en las elecciones de mayo pasado. Pero los resultados distan de los de Obama, por la mayor protecci¨®n de datos en Europa.
- Canad¨¢. En las ¨²ltimas elecciones, en octubre, los tres partidos utilizaron plataformas y aplicaciones m¨®viles para, entre otras cosas, organizar datos recogidos en las visitas a los electores.
La herramienta de los laboristas podr¨ªa haber sido mucho m¨¢s agresiva en su recogida de datos. Las herramientas de este tipo son comunes en Facebook, pero no es tan frecuente que luego comprobemos a qu¨¦ tipo de datos tienen acceso. Los proveedores de datos a gran escala tienen hoy un poder comparable al de las agencias de calificaci¨®n del cr¨¦dito. Los sondeos nacieron como una forma de emancipaci¨®n, una forma de que la estad¨ªstica proporcionara una valoraci¨®n p¨²blica y verificable del ¨¢nimo del electorado. La carga de responder reca¨ªa sobre unos cuantos entrevistados seleccionados al azar. El uso de los datos a gran escala, por el contrario, ofrece enormes cantidades privadas de informaci¨®n y hace que la carga est¨¦ en todos.
Es f¨¢cil destacar los ¨¦xitos de las encuestas. Pero el mayor ¨¦xito del big data tiene que ver con su funci¨®n como ¡°persuasor oculto¡±, algo sobre lo que escribi¨® Vance Packard en su c¨¦lebre ensayo de 1957 sobre manipulaci¨®n mental Las formas ocultas de la propaganda.
Chris Hanretty es profesor de Pol¨ªtica en la Universidad de East Anglia y cofundador del sitio web electionforecast.co.uk.
Traducci¨®n de Mar¨ªa Luisa Rodr¨ªguez Tapia.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.