Textos en lat¨ªn y longitudes inasumibles: las revelaciones de un buscador de pol¨ªticas de privacidad
Un equipo de investigadores de la Universidad Estatal de Pensilvania ha creado PrivaSeer, una herramienta para explorar qu¨¦ hacen con nuestros datos m¨¢s de un mill¨®n de empresas
En el gremio del dise?o gr¨¢fico, los textos pendientes escribir se completan con lo que se conoce como Lorem Ipsum, un galimat¨ªas en lat¨ªn que procede de un texto de Cicer¨®n al que se le han borrado s¨ªlabas y caracteres. Si introducimos estas dos palabras en PrivaSeer, un buscador de pol¨ªticas de privacidad que han creado tres investigadores de la Universidad Estatal de Pensilvania, obtenemos m¨¢s de dos mil resultados. Concretamente 2.462 p¨¢ginas que deber¨ªan explicar el modo en que una empresa usa los datos de sus clientes, p...
En el gremio del dise?o gr¨¢fico, los textos pendientes escribir se completan con lo que se conoce como Lorem Ipsum, un galimat¨ªas en lat¨ªn que procede de un texto de Cicer¨®n al que se le han borrado s¨ªlabas y caracteres. Si introducimos estas dos palabras en PrivaSeer, un buscador de pol¨ªticas de privacidad que han creado tres investigadores de la Universidad Estatal de Pensilvania, obtenemos m¨¢s de dos mil resultados. Concretamente 2.462 p¨¢ginas que deber¨ªan explicar el modo en que una empresa usa los datos de sus clientes, pero cuando fueron indexadas mostraban una retah¨ªla sin sentido al menos en alguno de sus apartados. ¡°Hay p¨¢ginas ah¨ª fuera que no han publicado a¨²n su pol¨ªtica de privacidad. Y en muchos casos es ilegal. Pero ocurre¡±, explica Shomir Wilson, profesor asistente en de la Universidad Estatal de Pensilvania, que ha desarrollado PrivaSeer en colaboraci¨®n con Lee Giles, profesor de la misma instituci¨®n, y Mukund Srinath, estudiante de doctorado.
Seg¨²n la estimaci¨®n de Srinath, los textos falsos podr¨ªan ser m¨¢s: ¡°No tenemos estad¨ªsticas del porcentaje exacto, pero siendo conservador, te dir¨ªa que un 0,5% de las p¨¢ginas que ten¨ªan que ser pol¨ªticas de privacidad ten¨ªan estos Lorem Ipsum¡±, razona. Esta aproximaci¨®n equivaldr¨ªa a unos 7.000 documentos de los 1,4 millones que indexa el motor de b¨²squeda.
Los textos en lat¨ªn son una revelaci¨®n inesperada entre las que permite obtener este motor de b¨²squeda, pensado para dotar de mayor transparencia estos textos ya famosos por su dif¨ªcil digesti¨®n. Otras ya las conoc¨ªamos: ¡°El problema m¨¢s significativo es el tiempo que se tarda en leer estas pol¨ªticas y lo complicadas que son¡±, resume Srinath. Y otras tantas a¨²n est¨¢n por descubrir: ¡°Hay una creciente comunidad de investigadores interesados en estudiar las pol¨ªticas de privacidad de aplicaciones y p¨¢ginas y la mayor¨ªa de las colecciones que ha habido hasta ahora eran relativamente peque?as¡±, contin¨²a Wilson.
Por ahora, PrivaSeer tiene indexadas m¨¢s de un mill¨®n de pol¨ªticas de privacidad recopiladas a trav¨¦s de un rastreador web (en ingl¨¦s, web crawler) capaz de identificar estos documentos en funci¨®n de una serie de palabras claves. Una vez identificados los textos, un sistema de procesamiento del lenguaje natural extrae sus caracter¨ªsticas de forma automatizada, de manera que cada b¨²squeda no solo muestra los textos que contienen unas palabras espec¨ªficas, sino que permite recabar informaci¨®n adicional sobre esos resultados: a qu¨¦ industrias corresponden esas pol¨ªticas, qu¨¦ tecnolog¨ªas de rastreo se mencionan, qu¨¦ regulaciones se tienen en cuenta... ¡°Conforme los filtros se vuelvan m¨¢s ricos e informativos, podremos mostrar m¨¢s informaci¨®n¡±, promete Srinath.
?Por qu¨¦ necesitamos un buscador de este tipo? ¡°Por una parte, somos cotillas¡±, resume Giles, que durante su carrera ha creado ya varios buscadores especializados que comparten el apellido ¡°seer¡± (CiteSeer, ChemSeer, BotSeer...). ¡°Adem¨¢s, el buscador nos permite ver a gran escala las tendencias en lo relativo a la privacidad de los consumidores, detalles que no siempre podemos detectar en las noticias. Y podemos ganar visibilidad en cuanto al modo en que la privacidad cambia con el tiempo¡±, contin¨²a Wilson.
Inesperada variedad
Aunque inicialmente los investigadores esperaban encontrar bastantes similitudes entre los textos indexados, la realidad es que en el sector hay menos copia-pega de lo que cabr¨ªa imaginar. ¡°Muy pocas compa?¨ªas usan generadores de pol¨ªticas de privacidad. Y las que lo hacen, toman prestada la estructura original, pero aplican una cantidad considerable de cambios¡±, confirma Srinath. ?Es bueno que haya tanta diversidad o ser¨ªa mejor que las pol¨ªticas de privacidad estuvieran m¨¢s estandarizadas? ¡°Creo que ser¨ªa preocupante que las empresas estuvieran simplemente copiando y pegando sin articular qu¨¦ significa cada parte para su negocio¡±, razona Wilson.
Para el futuro pr¨®ximo, los investigadores esperan desarrollar procesos automatizados que permitan indexar nuevas pol¨ªticas de privacidad y actualizar las que ya tienen y aplicar m¨¦todos de an¨¢lisis m¨¢s sofisticados para extraer m¨¢s informaci¨®n. ?Veremos otros idiomas en PrivaSeer? El plan es que vayan llegando. ¡°Al menos en la Uni¨®n Europea, lo m¨¢s habitual es que la compa?¨ªa publique sus pol¨ªticas en un solo idioma, normalmente ingl¨¦s, y si a?aden un segundo, es el lenguaje dominante en el pa¨ªs donde se ubica el negocio¡±, comenta Wilson. ¡°Una pregunta abierta en la que estoy trabajando con otro grupo de investigaci¨®n es: ?Con cu¨¢nta frecuencia se contradicen las pol¨ªticas escritas en distintos idiomas? Todav¨ªa no lo sabemos, pero s¨ª hemos encontrado casos en los que no tienen los mismos contenidos¡±.
A largo plazo, los investigadores esperan que iniciativas como PrivaSeer permitan avanzar hacia una nueva configuraci¨®n para estas pol¨ªticas de privacidad: un formato que verdaderamente informe a la gente sobre lo que est¨¢ ocurriendo con sus datos y le permita tomar decisiones efectivas al respecto. ¡°Queremos revelar m¨¢s sobre c¨®mo funciona el paisaje de la privacidad de los consumidores en internet y esperamos que esa informaci¨®n sea utilizada por los reguladores para influir en lo que venga despu¨¦s¡±, concluye Wilson.
El objetivo no es sencillo. Para hacer su trabajo estos investigadores necesitan, entre otras cosas, conseguir financiaci¨®n que les permita estudiar detenidamente unos textos que el resto de la sociedad, como norma general, ignora. Sin embargo, Giles se muestra optimista. ¡°Es m¨¢s f¨¢cil encontrar financiaci¨®n para las cosas que la gente conoce. Pero ahora la gente est¨¢ empezando a preocuparse por la privacidad. As¨ª que pienso que es un buen momento¡±.
Puedes seguir a EL PA?S TECNOLOG?A en Facebook y Twitter o apuntarte aqu¨ª para recibir nuestra newsletter semanal.