EsCovid19data: los voluntarios que llevan tres meses poniendo orden en los datos de la pandemia
Un grupo de periodistas, cient¨ªficos y desarrolladores se organiza en las redes para unificar el marem¨¢gnum de estad¨ªsticas oficiales y promueve un manifiesto por una informaci¨®n p¨²blica accesible
Como los datos no iban a la monta?a, la monta?a ha tenido que acercarse a buscar los datos. Un grupo de periodistas, cient¨ªficos sociales, matem¨¢ticos, analistas de datos, profesores de universidad y desarrolladores espa?oles, organizados de forma espont¨¢nea en las redes han dedicado de forma voluntaria los ¨²ltimos tres meses a unificar el marem¨¢gnum de datos de la pandemia. Para obtener la informaci¨®n detallada por provincias, el proyecto bautizado como EsCovid19data, recopila desde marzo los datos sobre casos, ingresos en la UCI y fallecimientos que cada comunidad configura y publica siguiendo criterios diferentes y con formatos variados. El fruto de ese trabajo de extracci¨®n, procesamiento y publicaci¨®n de informaci¨®n en plataformas colaborativas y en formatos adecuados para el manejo de datos ha sido empleado ya en una larga lista de art¨ªculos de revistas cient¨ªficas y medios generalistas, como el mapa de EL PA?S con los riesgos de rebrote por provincias, que se actualiza cada d¨ªa con los datos del colectivo.
¡°Poco antes de declararse el Estado de Alarma nos dimos cuenta de que no exist¨ªa informaci¨®n detallada sobre la covid-19¡±, recuerdan desde el grupo. Cuando se percataron de esto, todav¨ªa eran un conjunto de profesionales desperdigados, pero unidos por la sed de informaci¨®n. ¡°Como quer¨ªamos datos m¨¢s detallados, hicimos un llamamiento inicial por Twitter y poco a poco nos fuimos conociendo y encontrando¡±.
EsCovid19data naci¨® en remoto y ha trabajado de esta manera durante toda la crisis. La oficina de esta veintena de recolectores de datos es un chat de Telegram en el que se canalizan y resuelven todas las dudas que surgen en el proceso. La complejidad que han supuesto estas tareas no pill¨® desprevenido a Pablo Rey, parte de este colectivo y de Montera34, otro grupo habitualmente dedicado a proyectos de apertura de datos. ¡°Para quienes hemos trabajado con datos de cualquier administraci¨®n antes, esta situaci¨®n no es una sorpresa. Siempre que me he puesto a estudiar cualquier tema surgen problemas tanto en el formato de los datos, en su metodolog¨ªa de generaci¨®n o la falta de acceso¡±, se?ala.
La acuciante necesidad de informaci¨®n en tiempos de pandemia global ha llevado a este grupo de voluntarios a impulsar, junto con otros colaboradores, un manifiesto en el que piden a la administraci¨®n una soluci¨®n a las carencias que han estado intentando subsanar durante los ¨²ltimos meses. ¡°Por un lado, nos alegra que los medios de comunicaci¨®n y la ciencia usen nuestros datos, por eso surge este proyecto. Por otro, asusta pensar que la ciencia est¨¦ sostenida por estructuras tan fr¨¢giles como la de un grupo de voluntarios¡±, lamentan.
En reci¨¦n difundida declaraci¨®n se piden datos accesibles, detallados, an¨®nimos y actualizados sobre la pandemia, con el argumento de que ¡°todav¨ªa es posible¡± una mejor gesti¨®n. ¡°Nuestro objetivo es contribuir al bien com¨²n, seguir trabajando para conseguir que el acceso al conocimiento sobre esta pandemia sea libre y, as¨ª, no solo favorecer una ciudadan¨ªa mejor informada, sino tambi¨¦n mejor capacitada para colaborar en la lucha contra esta y futuras crisis. Y trabajar de esta manera transparente y coordinada deber¨ªa ser la norma a partir de ahora, no la excepci¨®n¡±.
Mientras llegan los datos
Por lo pronto, la ¨²nica fuente oficial y unificada que publica datos desglosados de la pandemia a nivel estatal es el Instituto de Salud Carlos III que ofrece series hist¨®ricas por autonom¨ªas, un nivel de detalle que resulta insuficiente para comprender el fen¨®meno, caracterizado por su desarrollo a nivel local. ¡°La puesta a disposici¨®n de todos los datos referidos a la pandemia por parte de las administraciones p¨²blicas no solo no ha ido mejorando paulatinamente, sino que incluso ha empeorado. Tanto a nivel estatal como auton¨®mico se ha interrumpido la publicaci¨®n de las series de datos¡±, denuncia el manifiesto.
En contraste con esto, encuentran casos como el de Castilla y Le¨®n, en la que los formatos abiertos y el mantenimiento de las series hist¨®ricas ha sido una constante desde el principio, y Canarias, que aunque el 2 de junio dej¨® de publicar las cifras de tests de anticuerpos realizados diariamente, ha ido ampliando progresivamente la informaci¨®n contenida en sus series hist¨®ricas. ¡°Esto es positivo, ?pero por qu¨¦ se publican en abierto ciertas informaciones a la vez que se dejan de notificar otros datos? Y algo muy importante: ?por qu¨¦ motivo no se abrieron antes ciertas informaciones?¡±.
En este contexto, el primer paso de EsCovid19data para construir una imagen m¨¢s clara del impacto y evoluci¨®n de la pandemia fue repartir los territorios entre los miembros del grupo. ¡°La mayor¨ªa se encarga de amadrinar una comunidad aut¨®noma o provincia: buscar d¨®nde y c¨®mo se publica la informaci¨®n¡±, explican. Lo arduo de la puesta en com¨²n depende del formato en que se encuentren los datos originales. Algunas madrinas trabajan con fuentes de informaci¨®n estable y reutilizable cuya extracci¨®n puede hacerse de forma autom¨¢tica. Otras, menos afortunadas, pueden limitarse a copiar y pegar valores num¨¦ricos. Las peor paradas topan con la necesidad de extraer los datos de notas de prensa o gr¨¢ficos interactivos que no admiten la descarga de los valores que los componen.
En el paso final, se juntan todas las bases de datos en una ¨²nica que tiene dos caracter¨ªsticas tan fundamentales como dif¨ªciles de encontrar en las informaciones publicadas por las administraciones durante los ¨²ltimos meses: es coherente y descargable. La vocaci¨®n de transparencia del proyecto, que vuelca todos sus avances e incluso los scripts que emplean para procesar los datos en GitHub ¡ªla plataforma colaborativa donde programadores de todo el mundo desarrollan y difunden sus proyectos¡ª, hace posible que sus trabajos est¨¦n tambi¨¦n revisados por observadores externos. ¡°Hay personas que no participan de ese grupo de coordinaci¨®n pero que aportan externamente: publican los datos que consiguen en repositorios abiertos que podemos utilizar o realizan visualizaciones y detectan errores en nuestra base de datos¡±, a?aden.
Los autores del manifiesto reconocen las dificultades asociadas a una situaci¨®n como la pandemia y a la necesidad de publicar datos en tiempo real, pero, en contraste con el caso espa?ol, destacan gestiones como la que se ha hecho en Italia. All¨ª el Gobierno publica sus datos en un repositorio p¨²blico en GitHub desde hace meses. ¡°Tienen toda la informaci¨®n de forma robusta y cualquiera puede acceder a ella sin sustos de que ma?ana cambien la URL, desaparezca o la eliminen¡±, explican desde esCovid19data.
Puedes seguir a EL PA?S TECNOLOG?A RETINA en Facebook, Twitter, Instagram o suscribirte aqu¨ª a nuestra Newsletter.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.