El Big Data al servicio de la ciencia en el CERN
Helix Nebula quiere desarrollar una nube cient¨ªfica que forme un mercado abierto para la ciencia
El CERN acoge el acelerador de part¨ªculas Large Hadron Collider (LHC), posiblemente la m¨¢quina m¨¢s grande que se ha construido jam¨¢s. Este anillo superconductor de 27 kil¨®metros est¨¢ situado en un t¨²nel 100 metros bajo la frontera entre Francia y Suiza, cerca de Ginebra. Al colisionar protones a casi la velocidad de la luz, el LHC ofrece una visi¨®n in¨¦dita de la estructura de la materia y de la historia de nuestro Universo. Las observaciones del a?o pasado de una nueva part¨ªcula que encajaba con el tan deseado bos¨®n de Higgs, que pasa por ser el responsable de la masa de todo lo que nos rodea, se han confirmado y se han estudiado con m¨¢s profundidad gracias al an¨¢lisis avanzado de decenas de petabytes de datos, lo cual podr¨ªa bien llamarse Big Data.
Una empresa como ¨¦sta requiere una infraestructura cient¨ªfica y tecnol¨®gica ¨²nica: desde detectores de part¨ªculas del tama?o de una catedral hasta equipos de primer orden para la adquisici¨®n y el procesamiento de datos.
No es posible observar directamente la interacci¨®n que tiene lugar en un detector, pero hay maneras de observar sus consecuencias. Despu¨¦s de una colisi¨®n, las part¨ªculas siguen descomponi¨¦ndose en otras hasta que abandonan el detector o ¨¦ste las absorbe. As¨ª, algunas part¨ªculas que son ya muy conocidas para la ciencia (y que pueden observarse) dejan rastros en diversos subdetectores, que tienen del orden de 100 millones de canales. Si tenemos en cuenta que las colisiones suceden 40 millones de veces por segundo, toda la operaci¨®n puede compararse con tomar 40 millones de fotos por segundo con una c¨¢mara digital de 100 megap¨ªxeles. Para a?adir m¨¢s dificultad, esta ?c¨¢mara? se desenfoca constantemente y necesita calibrarse de manera regular. La precisi¨®n con la que funcionan los detectores puede compararse a la precisi¨®n que har¨ªa falta para poner un campo de f¨²tbol boca abajo encima de otro y asegurarse de que todas las briznas de hierba est¨¢n perfectamente alineadas.
Para reducir la carga de almacenamiento, los sistemas de adquisici¨®n de datos instalados en los componentes electr¨®nicos y en granjas subterr¨¢neas de computaci¨®n cerca de los detectores siguen buscando se?ales de nuevos elementos de la f¨ªsica. En primer lugar, la combinaci¨®n de se?ales recibida debe entenderse, y esto supone un ejercicio de procesamiento paralelo en tiempo real. Despu¨¦s, debe compararse con decenas de par¨¢metros que describen aspectos ya conocidos. Las muestras que representan elementos f¨ªsicos ya conocidos se descartan inmediatamente. El uso de sistemas avanzados de filtraci¨®n como estos implica que apenas llega a almacenarse una peque?a porci¨®n de los datos de entrada: aquellos que potencialmente constituyen un nuevo fen¨®meno. Al final, solo una colisi¨®n de cada 10.000.000.000.000 es realmente interesante, pero se mantienen almacenadas muchas m¨¢s. Los datos escogidos se env¨ªan al Centro de datos principal del CERN a una velocidad de 10GB/s, y despu¨¦s se distribuyen por la Red mundial de Computaci¨®n del LCH, o Worldwide LHC Computing Grid (WLCG), para procesarlos de nuevo, y se almacenan en cintas magn¨¦ticas para archivarlos. Cada a?o se a?aden m¨¢s de 25 petabytes.
La Red es una federaci¨®n de m¨¢s de 150 centros de datos repartidos por todo el mundo que comparten recursos tales como procesadores y almacenamiento en disco o en cinta para formar una red enorme de unidades de computaci¨®n interconectadas en la que todas trabajan conjuntamente. La WLCG se basa en la European Grid Initiative (EGI) de Europa y la Open Science Grid (OSG) de Estados Unidos, y por ello es parte de una infraestructura mayor que no est¨¢ limitada a la f¨ªsica de alta energ¨ªa sino que tambi¨¦n trabaja para la investigaci¨®n en astronom¨ªa, la biolog¨ªa o energ¨ªa de fusi¨®n. En conjunto, la Red funciona sobre m¨¢s de 350.000 n¨²cleos de arquitectura Intel y ya almacena 0,25 exabytes (250 PB) de Big Data. Con esta infraestructura, un cient¨ªfico puede sentarse en su escritorio en cualquier lugar del mundo y ejecutar c¨®modamente tareas de simulaci¨®n o an¨¢lisis. Es entonces cuando nuestro gran mont¨®n de Big Data se convierte en informaci¨®n realmente ¨²til.
Aunque el CERN y sus socios han conseguido liderar y explotar los nuevos recursos de computaci¨®n (la World Wide Web naci¨® en el CERN), todav¨ªa queda mucho trabajo por hacer. Se espera que el volumen de datos en crudo se multiplique por cien en los pr¨®ximos a?os, as¨ª que el CERN afronta algunos retos tecnol¨®gicos considerables similares a los de los gigantes mundiales del procesamiento de datos y otros grandes laboratorios.
Bajo esas circunstancias, resulta natural unir fuerzas con otros para embarcarse en los grandes desaf¨ªos del procesamiento de datos del futuro, y por eso se cre¨® el CERN openlab. Es una investigaci¨®n conjunta entre el CERN y algunas empresas destacadas de la industria tecnol¨®gica (HP, Huawei, Intel, Oracle y Siemens) que quiere desarrollar soluciones inform¨¢ticas de ¨²ltima generaci¨®n para el LHC. Desde su inicio en 2001, el CERN openlab ha colaborado en un gran n¨²mero de proyectos de investigaci¨®n, sobre todo en los campos de la eficiencia de los procesos, las bases de datos y las redes.
Otra iniciativa de futuro destacada es el proyecto Helix Nebula, que quiere desarrollar una nube cient¨ªfica que forme un mercado abierto para la ciencia. Con el apoyo de un consorcio de 34 empresas y laboratorios de investigaci¨®n, la iniciativa trabaja para establecer una Nube europea de ciencia de acceso f¨¢cil. Entre los participantes hay tres de los grandes nombres de la ciencia europea: el Laboratorio europeo de biolog¨ªa molecular (EMBL), la Agencia Espacial Europea (ESA) y el CERN. Los tres perciben el empuje del Big Data, ya sea en el ¨¢mbito de la secuenciaci¨®n de genoma del futuro, en el de la predicci¨®n de terremotos o en el de la exploraci¨®n de la materia.
En ¨²ltimo t¨¦rmino, lo m¨¢s importante de todo es la dedicaci¨®n de miles de cient¨ªficos e ingenieros de 110 pa¨ªses que hace posible la captura y el an¨¢lisis de grandes vol¨²menes de datos hasta en en un momento en que los requisitos cada vez demandan m¨¢s.Sus esfuerzos incansables son los que dirigen la tecnolog¨ªa para ayudar a convertir el Big Data en una gran ciencia mejor m¨¢s r¨¢pida y beneficiar as¨ª a la sociedad en su conjunto.
Andrzej Nowak, ponente del 15? BDigital Global Congress, dirige el CERN-Openlab Platform Competence Center Leader (Suiza).
? 2013 CERN
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.