El almac¨¦n invisible que guarda datos gen¨®micos de un mill¨®n de personas
El Archivo Europeo de Genomas y Fenomas, que dispone de 16 petabytes de datos de salud muy sensibles para investigaci¨®n cient¨ªfica, est¨¢ custodiado en el superordenador MareNostrum de Barcelona y en Cambridge
En un cruce de caminos entre dios y la ciencia, bajo los muros de una antigua capilla que hoy cobija uno de los superordenadores m¨¢s potentes de Europa, se custodian los datos gen¨®micos y de salud de m¨¢s de un mill¨®n de personas de todo el mundo. Es el Archivo Europeo de Genomas y Fenomas (EGA, por sus siglas en ingl¨¦s), una informaci¨®n extremadamente sensible que permanece guardada, a disposici¨®n de la comunidad cient¨ªfica y bajo estrictas medidas de seguridad, en una especie de almac¨¦n invisible dentro del superordenador...
En un cruce de caminos entre dios y la ciencia, bajo los muros de una antigua capilla que hoy cobija uno de los superordenadores m¨¢s potentes de Europa, se custodian los datos gen¨®micos y de salud de m¨¢s de un mill¨®n de personas de todo el mundo. Es el Archivo Europeo de Genomas y Fenomas (EGA, por sus siglas en ingl¨¦s), una informaci¨®n extremadamente sensible que permanece guardada, a disposici¨®n de la comunidad cient¨ªfica y bajo estrictas medidas de seguridad, en una especie de almac¨¦n invisible dentro del superordenador MareNostrum del Barcelona Supercomputing Center. La organizaci¨®n, la custodia y la gesti¨®n de esos datos, de los que hay otra copia en Cambridge, han permitido el acceso m¨¢s eficiente a informaci¨®n sanitaria muy delicada para desarrollar miles de estudios cient¨ªficos y ensayos cl¨ªnicos en todo el mundo. Y la rueda no para de girar: siguen sum¨¢ndose datos, investigaciones y evidencia sin parar.
Ese almac¨¦n invisible es inmenso. Ocupa 16 petabytes en el MareNostrum, explica Arcadi Navarro, l¨ªder del equipo EGA en el Centro de Regulaci¨®n Gen¨®mica, una de las organizaciones que custodia el acceso a estos datos: ¡°Todos los libros catalogados que se han escrito desde el principio de la humanidad ocupan 500 terabytes. Un petabyte es el doble de eso. As¨ª que este repositorio es m¨¢s de 30 veces todos esos libros¡±, ejemplifica. En el Instituto Europeo de Bioinform¨¢tica EMBL, en Cambridge (Reino Unido), se guarda otra copia de toda esta informaci¨®n, por si acaso. ¡°Lo hacemos por si hay un terremoto en uno de los dos sitios, para que no se pierdan los datos¡±, bromea Navarro.
Todo comenz¨® por la necesidad de compartir. La explosi¨®n de la investigaci¨®n gen¨®mica desde finales de los a?os 2000 cristaliz¨® las dificultades de la comunidad cient¨ªfica para reutilizar ese tipo de datos moleculares entre los investigadores, recuerda Navarro: ¡°Los cient¨ªficos cre¨ªan que podr¨ªan compartir estos datos, pero se dieron cuenta de que no, porque con los datos gen¨®micos se puede identificar f¨¢cilmente a los ciudadanos. Con la imagen de una radiograf¨ªa, por ejemplo, se borra el nombre, y puedes anonimizarla. Pero el genoma, por su propia naturaleza, no es anonimizable¡±.
De ah¨ª surgi¨® la idea de crear un repositorio para custodiar y compartir, con altos niveles de seguridad, esta clase de informaci¨®n de salud tan sensible. Estados Unidos cre¨® su infraestructura y Europa, por su parte, lo hizo con la EGA, cogestionada por el EMBL y el CRG en Barcelona. La plataforma europea recopila datos gen¨®micos y de salud procedentes de 5.600 trabajos cient¨ªficos que han ido dejando su informaci¨®n disponible en ese almac¨¦n invisible: son datos de secuencias de ADN e informaci¨®n de salud que los investigadores env¨ªan al repositorio para poder compartirlos, de forma segura, con otros cient¨ªficos que los necesiten.
En el EGA, hay, sobre todo, datos de estudios vinculados a temas oncol¨®gicos, pero tambi¨¦n sobre enfermedades cardiovasculares o inflamatorias. Sus datos han servido para identificar variantes gen¨¦ticas de enfermedades ultrarraras o la predisposici¨®n gen¨¦tica a sufrir determinados tumores. Hay informaci¨®n de m¨¢s de un mill¨®n de personas, 500.000 ya son solo del proyecto UK Biobank (una base de datos con informaci¨®n gen¨¦tica de medio mill¨®n de participantes del Reino Unido). A septiembre de 2022, 23.000 cient¨ªficos de 58 pa¨ªses hab¨ªan tenido acceso a esta base de datos para sus investigaciones.
El protocolo para solicitar este tipo de informaci¨®n es muy estricto, explica Navarro. ¡°No se lo damos a cualquiera que lo pida desde el garaje de su casa. Damos un acceso controlado. Por ejemplo, si un investigador de Jap¨®n contacta con nosotros para pedir unos datos, tenemos que garantizar que cumpla los requisitos que cumplieron los investigadores que crearon esos datos¡±, concreta. Debe tener una instituci¨®n cient¨ªfica solvente detr¨¢s, garantizar sus fines cient¨ªficos, tener el aval de un comit¨¦ de ¨¦tica¡ Una vez asegurada la fiabilidad y motivaci¨®n del demandante de los datos, se le hacen llegar de forma encriptada, sin que nadie por el camino pueda interceptarlos y leerlos.
Navarro define al EGA como un ¡°acelerador de la informaci¨®n¡±. En lugar de que un cient¨ªfico vaya puerta a puerta de cada centro de investigaci¨®n para pedirle determinados datos de un estudio, que esa instituci¨®n valore y verifique la demanda y la solvencia del investigador para compartir los datos, el EGA hace todo ese proceso de forma m¨¢s eficiente.
Alta seguridad
La clave, adem¨¢s, son los alt¨ªsimos niveles de seguridad: ¡°Tenemos 300 ciberataques a la hora y nunca hemos tenido ning¨²n problema¡±, resume Navarro. Alfonso Valencia, director del Departamento de Ciencias de la Vida del Barcelona Supercomputing Center-Centro Nacional de Supercomputaci¨®n, apunta que estos datos ¡°est¨¢n mucho m¨¢s seguros que los datos de un banco. Los datos del EGA est¨¢n encriptados, tienen un c¨®digo y necesitas una clave. Aunque alguien hackeara el BSC, que es muy dif¨ªcil, no ver¨ªa nada porque toda la informaci¨®n est¨¢ encriptada¡±, agrega. Y el contrato con los investigadores recoge que analicen los datos compartidos en un entorno seguro y se deshagan de ellos cuando terminen de utilizarlos, ¡°no se los pueden quedar para emplearlos con otros fines a los solicitados¡±, explica.
El EGA est¨¢ entrando ahora en una nueva fase que har¨¢ evolucionar la plataforma a una especie de repositorio federado entre varios pa¨ªses. ¡°En la pr¨¢ctica, para compartir datos gen¨®micos, por las leyes de protecci¨®n de datos de los pa¨ªses, es m¨¢s l¨®gico que los datos est¨¦n en los pa¨ªses de origen y no salgan de ah¨ª¡±, explica Valencia. Algunos pa¨ªses han empezado a desarrollar programas de medicina personalizada y generar grandes cantidades de datos que, por la gobernanza y la legislaci¨®n interna de cada pa¨ªs con este tipo de informaci¨®n sensible, el modelo de EGA no permit¨ªa aprovechar al m¨¢ximo esta informaci¨®n. Por eso y para facilitar la transferencia de informaci¨®n entre la comunidad cient¨ªfica en una era de creaci¨®n ingente de datos de este calibre y sensibilidad, se han puesto en marcha varios nodos en otros pa¨ªses, como Finlandia, Suecia, Noruega o Alemania, para custodiar los datos gen¨®micos que genere cada pa¨ªs y poder compartirlos siguiendo la metodolog¨ªa tradicional de EGA.
Puedes seguir a MATERIA en Facebook, Twitter e Instagram, o apuntarte aqu¨ª para recibir nuestra newsletter semanal.