Software Heritage: una Biblioteca de Alejandr¨ªa del c¨®digo fuente con 11.000 millones de ficheros
El cient¨ªfico Roberto Di Cosmo dirige un archivo que aspira a reunir las instrucciones de funcionamiento de todos los programas inform¨¢ticos del mundo y ha conseguido que la Unesco declare al ¡®software¡¯ patrimonio cultural de la humanidad
Roberto Di Cosmo (Parma, 1963) tiene una obsesi¨®n: quiere reunir en un mismo lugar todo el c¨®digo fuente del mundo. Esa especie de Biblioteca de Alejandr¨ªa de la programaci¨®n no puede tener ¨¢nimo de lucro y debe ser accesible para cualquiera, desde investigadores hasta empresas privadas o particulares. Que todos, o quienes quieran, conozcan la arquitectura de las aplicaciones inform¨¢ticas que usamos ayudar¨¢ a entenderlas y a mejorarlas. A generar m¨¢s conocimiento, a la prosperidad de la sociedad.
Este a?o se cumplen cinco desde que el sue?o de este cient¨ªfico italiano afincado en Par¨ªs empez¨® a convertirse en realidad. Gracias a su empe?o personal, la Software Heritage Inititative vio la luz en verano de 2016 en la sede del centro de investigaci¨®n INRIA, ubicado en la capital francesa. Desde entonces ha recopilado m¨¢s de 11.000 millones de ficheros ¨²nicos de m¨¢s de 160 millones de repositorios. Todo ese c¨®digo cabe en un petabyte (un mill¨®n de terabytes, que a su vez son 1.000 gigabytes), el equivalente a los datos que amasar¨ªa el Telescopio espacial Hubble durante 455 a?os. La copia maestra de ese superarchivo la tiene Software Heritage, aunque hay otras dos en los servidores en la nube de Microsoft (Azure) y de Amazon (AWS).
Di Cosmo y su equipo lograron que la Unesco declarara en 2017 al software patrimonio cultural de la humanidad, que debe preservarse como la m¨²sica o la literatura. Y a eso se dedica Software Heritage, a cuya financiaci¨®n contribuyen instituciones p¨²blicas como el Ministerio de Innovaci¨®n de Francia y varias universidades, pero tambi¨¦n bancos como Soci¨¦t¨¦ G¨¦n¨¦rale o empresas como Microsoft, Google, Intel o Huawei.
¡°Lo que hacemos es el equivalente a crear una especie de Google del c¨®digo¡±, comenta Di Cosmo en su perfecto castellano con acento argentino, gentileza de su mujer. Est¨¢ de visita en Madrid para participar en un congreso sobre ciencia abierta celebrado en la Universidad Polit¨¦cnica. La instituci¨®n que fund¨® y dirige tiene mucho que decir al respecto. ¡°Hace falta construir una infraestructura que permita f¨¢cilmente almacenar, referenciar, difundir y describir de forma accesible para todos el c¨®digo fuente que se usa en la investigaci¨®n¡±, subraya. La exitosa colaboraci¨®n de la comunidad cient¨ªfica para desarrollar la vacuna de la covid es un argumento de peso a favor de esta hist¨®rica reivindicaci¨®n.
El c¨®digo fuente son unas l¨ªneas de texto escritas en alg¨²n lenguaje de programaci¨®n que permiten que se ejecuten los programas inform¨¢ticos. Muchas compa?¨ªas y desarrolladores guardan celosamente esos c¨®digos: viven de venderlos o de desarrollar productos a partir de ellos. Pero tambi¨¦n hay quien publica sus creaciones para que los dem¨¢s puedan aprovecharlas. La cultura del software libre, que tiene su origen en los a?os ochenta e impuls¨® Richard Stallman, promueve esa visi¨®n de la programaci¨®n: la transparencia del c¨®digo fuente de los programas, compartir con la comunidad los desarrollos propios para que otros puedan perfeccionarlos o tomarlos como punto de partida de proyectos mayores.
El triunfo del ¡®software¡¯ libre
¡°De alg¨²n modo, el software libre ha ganado. Se calcula que en 2017 entre el 80% y el 90% del c¨®digo de las nuevas aplicaciones fue reutilizado de otro que ya exist¨ªa¡±, apunta. ¡°Las grandes empresas como Microsoft, que hace unos a?os ni siquiera usaban la palabra, ahora recurren masivamente el c¨®digo abierto¡±. Este cambio de tercio se debe a que el software se ha vuelto tan complejo que nadie, ninguna empresa ni ning¨²n pa¨ªs, es capaz de escribirlo todo por s¨ª mismo de cero: lo m¨¢s eficiente es cortar y pegar partes de c¨®digo que ya se sabe que funcionan y centrar los esfuerzos en las nuevas funcionalidades.
Que sea libre no quiere decir que no contribuya a mover la econom¨ªa. Seg¨²n estimaciones de la Comisi¨®n Europea, las empresas europeas invirtieron en 2018 unos 1.000 millones de euros en software de c¨®digo abierto, lo que tuvo un impacto sobre el PNB europeo de entre 65.000 y 95.000 millones.
Pese a su auge, su existencia no debe darse por sentada. ¡°En 2015 cerr¨® Google Code, el repositorio de c¨®digo auspiciado por la multinacional estadounidense, poniendo en peligro 700.000 proyectos. Gitorius, otro de los sitios m¨¢s populares en el mundillo, fue comprado por GitLab, que opt¨® por cerrarlo, lo que afect¨® a 120.000 proyectos. Hace unos meses, Bitbucket decidi¨® modificar un aspecto t¨¦cnico y borr¨® 250.000 proyectos. Salvar todo eso es complicado¡±, explica el inform¨¢tico.
Software Heritage recopila el material de su gran biblioteca virtual por tres v¨ªas. ¡°Nosotros vamos a buscar todo el c¨®digo fuente en todas las plataformas que conocemos, con la dificultad de que cada una habla una lengua diferente t¨¦cnicamente. As¨ª conseguimos la gran mayor¨ªa de datos¡±, detalla. ¡°Pero tambi¨¦n abrimos otras dos puertas: la posibilidad de que cualquiera indique una web con c¨®digo fuente, de modo que nosotros la recuperemos autom¨¢ticamente, y la colaboraci¨®n con asociaciones cient¨ªficas¡±.
Copias espejo en cada pa¨ªs
Di Cosmo y sus colegas optaron desde el principio por mantener varias copias de su archivo universal de c¨®digo fuente. Adem¨¢s de la suya y de las que tienen en la nube, la Software Heritage Initiative est¨¢ desarrollando un sistema de copias espejo (disk mirroring). Se trata de copias del archivo, pero bajo control administrativo y t¨¦cnico de otras entidades. La primera estar¨¢ en Italia, en la Agencia Nacional por las Nuevas Tecnolog¨ªas y la Energ¨ªa (ENEA). ¡°Ellos tendr¨¢n nuestros datos, pero nosotros no podremos escribir en su archivo. Por tanto, si viene un hacker y nos borra todo, no podr¨¢ hacer lo mismo con esa copia: tendr¨¢ que hackearla tambi¨¦n¡±, explica.
Lo normal, opina el cient¨ªfico, es que los Gobiernos de los pa¨ªses no tarden en darse cuenta de que les interesa apoyar la iniciativa y tener su propia copia espejo. ¡°Hoy en d¨ªa el software es fundamental para que todo siga funcionando. Nosotros creamos una copia de todo el que podemos recoger, y los pa¨ªses que quieran van a tener su copia espejo. De ese modo, no pierdes los datos y adem¨¢s te aseguras de que, pase lo que pase, nadie te va a poder cortar el acceso al programa que usas. As¨ª que, parad¨®jicamente, esta iniciativa de colaboraci¨®n global tambi¨¦n responde a una necesidad de autonom¨ªa estrat¨¦gica de cada pa¨ªs¡±, concluye Di Cosmo.
El refugio del c¨®digo fuente que dirige cuenta con un equipo m¨ªnimo. ¡°Necesitamos entre 30 y 50 personas a tiempo completo y un presupuesto anual de entre cinco y 10 millones. ¡°Si lo comparas con el costo de un telescopio, un barco oceanogr¨¢fico o un acelerador de part¨ªculas, eso no es nada. Pero es cierto que al ser virtual nuestro trabajo es menos tangible que otros, y a la Administraci¨®n se le da mejor en general financiar m¨¢quinas que gente¡±.
Puedes seguir a EL PA?S TECNOLOG?A en Facebook y Twitter o apuntarte aqu¨ª para recibir nuestra newsletter semanal.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.