?Cu¨¢ntos mensajes de WhatsApp hacen falta para identificarte? No tantos
Un equipo de investigadores entrena un algoritmo capaz de deducir datos personales de conversaciones an¨®nimas. El experimento muestra la importancia de preservar la privacidad en estos espacios
?Hasta d¨®nde llega nuestra huella digital? Sabemos del rastro que dejan nuestras participaciones en las redes sociales y cualquier contenido que subamos a un lugar accesible ¡ªo no tan accesible¡ª de internet. Pero las contribuciones que hacemos en esos foros van de cara a la galer¨ªa. Modulamos sus contenidos teniendo en cuenta una idea aproximada de quienes van a verlas y la imagen que queremos dar. Las plataformas de mensajer¨ªa instant¨¢nea, como WhatsApp, son harina de otro costal: ¡°En los mensajes privados revelas m¨¢s sobre ti, no solo en el contenido, sino en como usas el lenguaje¡±, explica Timo Koch, investigador de departamento de Psicolog¨ªa de la Universidad de M¨²nich.
Despu¨¦s de analizar un conjunto de m¨¢s de 300.000 mensajes de WhatsApp y entrenar un algoritmo capaz de reconocer la edad y g¨¦nero de sus autores, Koch y su equipo advierten que el experimento pone de manifiesto la importancia de preservar la privacidad en estos espacios. ¡°El cifrado de extremo a extremo es un importante primer paso. Pero aparte de eso necesitamos estar informados y que las plataformas sean transparentes y a?adan etiquetas cuando la informaci¨®n no est¨¢ cifrada¡±, razona el experto.
Las preocupaciones de Koch y su equipo vienen avivadas por la tendencia de las redes sociales a favorecer cada vez m¨¢s el uso de espacios de mensajer¨ªa privada. ¡°Facebook est¨¢ cambiando el foco hacia estas conversaciones y probablemente querr¨¢n usar los datos, as¨ª que necesitamos tener una conversaci¨®n sobre c¨®mo queremos proteger esos mensajes y asegurarnos de que si se etiquetan como privados, de verdad lo son¡±.
?Cu¨¢ntos mensajes hacen falta para identificarnos? Depende de qu¨¦ parte del proceso estemos considerando. Koch y su equipo han basado su algoritmo en los contenidos de What¡¯s up, Deutschland?, un corpus de 451.938 conversaciones de WhatsApp cedidas por 495 voluntarios alemanes. Despu¨¦s de filtrar los casos donde no se facilitaba edad y g¨¦nero y los intercambios demasiado breves, se quedaron con 226 sujetos, 309.229 mensajes, 1.949.518 palabras. Para las predicciones usaron a¨²n menos.
Estudios similares que han utilizado las redes sociales como fuente de los contenidos han basado sus an¨¢lisis en grandes muestras de texto de decenas de millones de palabras aportadas por decenas de miles de voluntarios. Pero las carencias en cuanto al volumen de informaci¨®n las neutraliza la calidad de esta y el modo m¨¢s ¨ªntimo en que nos expresamos en estos entornos. ¡°El hecho de que tengamos un conjunto de datos tan peque?o y nuestras predicciones funcionan nos da una pista de cu¨¢nto m¨¢s podr¨ªa hacerse. Nuestros resultados deber¨ªan considerarse un m¨ªnimo¡±, aseguran.
Una vez entrenado el algoritmo, basta una muestra de unas 1.000 palabras para obtener una clasificaci¨®n de g¨¦nero y edad con razonable precisi¨®n. Para poder valorar esta cifra, hemos hecho un recuento de palabras en una conversaci¨®n moderadamente activa entre dos personas: tres d¨ªas de di¨¢logo dejan tras de s¨ª algo m¨¢s de 1.000 palabras. Pese a todo, los investigadores reconocen que con una base de datos mayor el potencial del an¨¢lisis ser¨ªa muy superior. ¡°Si pensamos en an¨¢lisis de personalidad u otras caracter¨ªsticas necesitar¨ªamos m¨¢s informaci¨®n porque hay diferencias m¨¢s sutiles¡±, comenta Koch. ¡°Cuando tienes un buen modelo, hacer una predicci¨®n es cuesti¨®n de segundos¡±.
Dime qui¨¦n eres y te dir¨¦ c¨®mo wasapeas
Esta identificaci¨®n es posible porque nuestra manera de expresarnos en WhatsApp responde a patrones demogr¨¢ficos. De acuerdo con los contenidos de What¡¯s up, Deutschland?, los usuarios m¨¢s j¨®venes emplean m¨¢s emoticonos y se expresan en primera persona con m¨¢s frecuencia. Esta caracter¨ªstica, que ya se ha apreciado en el estudio de contenidos vertidos en otras plataformas, parece confirmar que nos volvemos menos individualistas con la edad.
En lo que respecta al g¨¦nero, Koch y su equipo encontraron un uso mayor y m¨¢s variado de los emojis en las mujeres, que tambi¨¦n recurren m¨¢s a los pronombres en primera persona del singular. En el caso de los hombres, destaca el uso de un lenguaje m¨¢s coloquial y mayor frecuencia de las referencias al consumo de alcohol.
Koch no descarta que se hayan producido peque?as evoluciones en el modo en que nos expresamos en estos foros. No en vano, los contenidos del conjunto de datos que han empleado para su estudio se compilaron entre noviembre de 2014 y enero de 2015. Formatos como los stickers, que se incorporaron en 2018 ¡ªaunque ya estaban en otras aplicaciones, como Line¡ª, o el acceso directo a los gifs podr¨ªan haber introducido ciertas variaciones.
Pero acceder a un corpus m¨¢s amplio y actualizado no es f¨¢cil, al menos desde el entorno acad¨¦mico. ¡°Una gran tecnol¨®gica tiene acceso a muchos m¨¢s datos¡±, se?ala. Fuentes de informaci¨®n m¨¢s ricas y recientes permitir¨ªan por ejemplo, hacer an¨¢lisis m¨¢s complejos de la personalidad de los usuarios o estudiar c¨®mo var¨ªa el modo en que nos sinceramos a trav¨¦s los mensajes privados en contraste con lo que compartimos desde las redes sociales en diferentes culturas y contextos nacionales.
Otra limitaci¨®n que se da fuera de los pa¨ªses angloparlantes es el idioma. El dominio del ingl¨¦s en el desarrollo de sistemas de procesamiento del lenguaje implica que la mayor¨ªa de las herramientas disponibles est¨¢n en esta lengua. ¡°Tuvimos que entrenar nuestros propios modelos. Cada idioma es diferente y tiene sus propias se?ales¡±, precisa Koch.
Vistas las orejas del lobo, ?deber¨ªamos medir m¨¢s la sinceridad de las conversaciones que tenemos en aplicaciones de mensajer¨ªa privada? Para Koch ahora mismo depende de cu¨¢nto peso demos a la privacidad en contraste con la comodidad. ¡°Hay algunas buenas alternativas, como Signal, que tambi¨¦n est¨¢ encriptado y no tiene detr¨¢s una corporaci¨®n que tenga inter¨¦s en sacar beneficio de la informaci¨®n¡±, comenta.
Puedes seguir a EL PA?S TECNOLOG?A en Facebook y Twitter o apuntarte aqu¨ª para recibir nuestra newsletter semanal.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.