Algunos problemas con los datos de la pandemia de la covid
El desconocimiento sobre qu¨¦ problem¨¢tica presentan los datos en cada momento es el principal obst¨¢culo que encuentran los estad¨ªsticos en el estudio de la epidemia creada por el coronavirus
Para comprender y modelar fen¨®menos complejos, como la pandemia de la covid-19, es crucial disponer de datos suficientes y de calidad. Las frases ¡°mide lo que sea medible y haz medible lo que no lo sea¡±, frecuentemente atribuida a Galileo Galilei, o ¡°solo sabemos de verdad de qu¨¦ hablamos cuando somos capaces de medirlo¡±, de Lord Kelvin, plasman este principio de la ciencia moderna y cobran mayor sentido, si cabe, tras lo vivido durante estos meses. Sin embargo, a lo largo de esta crisis hemos asistido a numerosos episodios de ausencia de datos, cambios en su definici¨®n ¨Ca lo largo del tiempo o seg¨²n su procedencia¨C, o falta de completitud de los mismos. Saber qu¨¦ tipo de problema se est¨¢ produciendo en cada momento es imprescindible para corregir, en el an¨¢lisis estad¨ªstico, los sesgos provocados y obtener buenas predicciones.
En los meses iniciales de la pandemia no se facilit¨® uno de los elementos clave para poder modelizar la evoluci¨®n de una pandemia: informaci¨®n fiable sobre la movilidad de la poblaci¨®n. Esta se obtiene, desde hace algunos meses, gracias al acuerdo entre el Instituto Nacional de Estad¨ªstica (INE) y las principales compa?¨ªas de telefon¨ªa m¨®vil en Espa?a; en concreto, se producen datos agregados sobre los flujos diarios de tel¨¦fonos m¨®viles que ¡°pernoctan¡± en una celda y pasan la mayor parte del d¨ªa en otra de las aproximadamente 3.200 celdas en las que se ha dividido Espa?a a estos efectos. Como consecuencia del estado de alarma, esta valiosa informaci¨®n no estuvo disponible hasta comienzos de junio.
S¨ª que se han suministrado, durante los tres primeros meses de la crisis, las principales series diarias de evoluci¨®n de la pandemia ¨Cn¨²mero de casos confirmados, hospitalizados, en UCI, fallecidos¨C, tanto en toda Espa?a como por comunidades aut¨®nomas. Sin embargo, la calidad de los datos, la ausencia de los mismos en determinados per¨ªodos y la frecuente falta de armonizaci¨®n ¨Ces decir la aplicaci¨®n de criterios de definici¨®n diferentes seg¨²n la procedencia del dato¨C han provocado graves problemas a la hora de analizarlos. Por ejemplo, algunas comunidades aut¨®nomas reportaron el n¨²mero total de pacientes de covid-19 que tuvieron que ser hospitalizados desde que comenz¨® la epidemia hasta el d¨ªa en cuesti¨®n, mientras que otras informaron del n¨²mero de pacientes que estaban hospitalizados en ese d¨ªa. Estas series no solo son distintas sino, lo que es m¨¢s grave, una no puede calcularse a partir de la otra.
Muchos de estos defectos ser¨ªan resolubles si existiese coherencia entre las definiciones de las series para las diferentes comunidades aut¨®nomas, a lo largo del tiempo; otros, como el hecho de que no est¨¦n completos o la presencia de ciertos sesgos, son inherentes a la naturaleza de los datos. Un primer caso son los llamados datos censurados. Son importantes para modelar, por ejemplo, el tiempo de atenci¨®n hospitalaria requerida por la poblaci¨®n. Si se dispone de datos de pacientes individuales ¨Cconvenientemente anonimizados¨C, es posible determinar el tiempo desde que el paciente es diagnosticado hasta que necesita ser hospitalizado (si es el caso); el tiempo que ha de permanecer en el hospital y, m¨¢s importante a¨²n, el tiempo durante el cual estar¨¢ ingresado en UCI. En plena eclosi¨®n de la pandemia, para algunos pacientes esta informaci¨®n era solo parcialmente conocida, puesto que la atenci¨®n m¨¦dica no hab¨ªa concluido, y se denomina dato censurado. En contraposici¨®n, un dato no censurado ser¨ªa el de un paciente que, a la fecha de extracci¨®n de la informaci¨®n, ya ha terminado su estancia en UCI. Naturalmente, los datos no censurados dan una informaci¨®n completa de la magnitud objeto de estudio, pero los datos censurados tambi¨¦n dan informaci¨®n muy relevante, si se tratan de manera adecuada.
Muchos de estos defectos ser¨ªan resolubles si existiese coherencia entre las definiciones de las series para las diferentes comunidades aut¨®nomas, a lo largo del tiempo
Otro sesgo se produce al analizar el n¨²mero diario de fallecidos por covid-19. En ocasiones, transcurren varios d¨ªas desde que se produce un fallecimiento hasta que este se notifica. Para estimar esta demora, y as¨ª aproximar el n¨²mero de fallecidos en un d¨ªa concreto a partir de los fallecimientos ocurridos en ese d¨ªa que ya han sido notificados, se ha de recoger la informaci¨®n relevante: d¨ªa y hora del fallecimiento y de la comunicaci¨®n del mismo. Sin embargo, las defunciones con largo retraso de notificaci¨®n son m¨¢s dif¨ªciles de observar, simplemente, porque no ha pasado el tiempo suficiente como para que esa informaci¨®n se haya suministrado, mientras que los datos con bajo retraso de notificaci¨®n est¨¢n m¨¢s presentes de lo debido. Esto produce un sesgo, llamado truncamiento.
Para la adecuada estimaci¨®n con datos truncados o censurados, y con otros muchos sesgos, debemos saber qu¨¦ tipo de problem¨¢tica se est¨¢ produciendo, y conocer alguna informaci¨®n adicional para corregirla (como, el retraso de notificaci¨®n, el hecho de si un dato temporal en UCI es censurado o no, en los casos anteriores). La idea para abordar una correcta estimaci¨®n es tratar de expresar las caracter¨ªsticas de la variable (inobservable) de inter¨¦s en t¨¦rminos de otras cantidades que dependan de alguna variable observable, que entonces s¨ª se podr¨¢n estimar emp¨ªricamente. Es decir, afrontar la lucha contra el sesgo con m¨¢s datos y, como propon¨ªa Galileo, hacer medible lo que no lo sea.
Ricardo Cao Abad es catedr¨¢tico de Estad¨ªstica e Investigaci¨®n Operativa de la Universidade da Coru?a y presidente del grupo de expertos de la ¡°Acci¨®n Matem¨¢tica contra el Coronavirus¡± del Comit¨¦ Espa?ol de Matem¨¢ticas (CEMat), que el 27 y 28 de agosto promovi¨® la escuela de verano ¡°Matem¨¢ticas vs COVID-19¡± junto con la Universidad Internacional Men¨¦ndez Pelayo.
?gata A. Tim¨®n G Longoria es la coordinadora de comunicaci¨®n y divulgaci¨®n del ICMAT
Caf¨¦ y Teoremas es una secci¨®n dedicada a las matem¨¢ticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matem¨¢ticas (ICMAT), en la que los investigadores y miembros del centro describen los ¨²ltimos avances de esta disciplina, comparten puntos de encuentro entre las matem¨¢ticas y otras expresiones sociales y culturales y recuerdan a quienes marcaron su desarrollo y supieron transformar caf¨¦ en teoremas. El nombre evoca la definici¨®n del matem¨¢tico h¨²ngaro Alfred R¨¦nyi: ¡°Un matem¨¢tico es una m¨¢quina que transforma caf¨¦ en teoremas¡±.
Edici¨®n y coordinaci¨®n: ?gata A. Tim¨®n Garc¨ªa-Longoria (ICMAT)
Puedes seguir a MATERIA en Facebook, Twitter, Instagram o suscribirte aqu¨ª a nuestra newsletter
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.