As¨ª funciona la ¡®piedra de Rosetta¡¯ de los legajos
Cient¨ªficos de C¨¢diz y Valencia crean un sistema con inteligencia artificial capaz de encontrar palabras en documentos digitalizados con caligraf¨ªa de los siglos XV al XIX
Un barco tambi¨¦n puede ser un nav¨ªo, una bombarda, una capitana, una carabela, una nao, un gale¨®n o una chalupa. Cualquiera de esas palabras aguarda escondida entre los miles de documentos antiguos que atesora un archivo hist¨®rico. Puede estar escrita a mano, m¨¢s o menos legible, en letra human¨ªstica, procesal encadenada o cortesana. No hay historiador que no se haya enfrentado a esta matrioska investigadora. Pero uno de ellos, Carlos Alonso, se pregunt¨® si un sistema de inteligencia artificial no podr¨ªa hacer ese engorroso trance. Y el proyecto ¡®Carabela¡¯ le acaba de demostrar que un algoritmo puede ser una suerte de piedra de Rosetta para legajos hist¨®ricos.
¡°Tiempo y dinero¡±, eso es lo que cuesta cualquier investigaci¨®n sobre pecios hundidos, seg¨²n explica Alonso, historiador del Centro de Arqueolog¨ªa Subacu¨¢tica (CAS) de C¨¢diz. ?l es uno de los art¨ªfices de este sistema inteligente capaz de encontrar palabras y combinaciones de palabras en documentos antiguos digitalizados. Este sistema ha ocupado m¨¢s de dos a?os de trabajo a investigadores del CAS -subsede del Instituto Andaluz del Patrimonio Hist¨®rico, IAPH- y del Centro de Investigaci¨®n de Reconocimiento de Patrones y Tecnolog¨ªa del Lenguaje Humano, PRHLT, de la Universitat Polit¨¨cnica de Val¨¨ncia (UPV), liderados por el catedr¨¢tico Enrique Vidal.
El f¨ªsico valenciano y su equipo (integrado por Jos¨¦ Miguel Bened¨ª, Lorenzo Quir¨®s, Francisco Casacuberta, Mois¨¦s Pastor, Vicente Bosch, Alejandro Toselli, Ver¨®nica Romero y Joan Andreu S¨¢nchez) lleva m¨¢s de 12 a?os enfrascado en investigaciones destinadas a desarrollar tecnolog¨ªas capaces de procesar textos escritos a mano. Han conseguido buenos resultados para colecciones concretas, como con los manuscritos del fil¨®sofo ingl¨¦s Jeremy Bentham. Pero nunca hab¨ªan logrado el ambicioso reto que Alonso ten¨ªa en mente desde que, en 2011, supo del trabajo de Vidal a trav¨¦s de una entrevista: conseguir que el sistema entienda diferentes tipos de letra, habitualmente enrevesados, y en im¨¢genes de diversa calidad.
¡°Eran dificultades que nunca hab¨ªamos tocado¡±, explica Vidal. Hasta que en el proyecto Carabela -desarrollado entre 2017 y 2019 con financiaci¨®n de la Fundaci¨®n BBVA- han demostrado que la tecnolog¨ªa est¨¢ preparada para leer palabras en fotograf¨ªas de bajo contraste y calidad, de hasta 125 p¨ªxeles por pulgada, escritas en variables -y, a veces, casi ilegibles- estilos de letra desde el siglo XV al XIX. ¡°Hemos forzado al m¨¢ximo al sistema y el resultado ha sido muy bueno¡±, afirma Alonso. Esta variabilidad de im¨¢genes, calidades y estilos de escritura eran requisitos imprescindibles para que pudiese resultar de utilidad en las investigaciones sobre barcos hundidos que en el CAS realizan para confeccionar su carta arqueol¨®gica subacu¨¢tica.?
¡°Aunque los documentos est¨¦n catalogados o digitalizados, hay que tener en cuenta que el 80% o 90% del contenido de los archivos es desconocido¡±
El sistema se basa en un m¨¦todo de indexaci¨®n probabil¨ªstica, con una interfaz similar a un buscador por palabras. El algoritmo trabaja p¨ªxel por p¨ªxel de la imagen empleando modelos ¨®pticos, que descifran la escritura de los caracteres, como con modelos de lenguaje, que analizan c¨®mo se combinan estos para formar palabras y frases. Las b¨²squedas producen resultados acertados en m¨¢s de un 80% de los casos y el sistema siempre informa porcentualmente al usuario sobre el grado de fiabilidad de lo que encuentra. ¡°El ¨¦xito se debe en buena medida a que no se insiste en transcribir textualmente, sino que construye mapas de indexaci¨®n con probabilidades de todo lo que puede estar escrito en cada punto de cada imagen¡±, detalla Vidal.
Pero el algoritmo no aprendi¨® solo a hacer esta tarea. ¡°En Valencia fueron capaces de poner en marcha la escuela y nosotros ense?amos al ni?o a leer¡±, explica Alonso en referencia al trabajo desarrollado junto a Carmen Garc¨ªa Rivera -directora del CAS-, Lourdes M¨¢rquez, y los colaboradores Mar¨ªa del Carmen Orcero y David Garrido. El equipo seleccion¨® m¨¢s de 130.000 im¨¢genes -a fotograf¨ªa por p¨¢gina- procedentes de colecciones del Archivo Hist¨®rico Provincial de C¨¢diz y del Archivo General de Indias de Sevilla. De ellas, Alonso escogi¨® 514 documentos al azar, en funci¨®n de los diferentes tipos de letras, calidades de imagen o de contraste.
El historiador fue transcribiendo palabra por palabra, indic¨¢ndole al algoritmo las variaciones en la escritura que los t¨¦rminos han experimentado en los siglos -abreviaturas, cambios entre la v y la b- o sus sin¨®nimos, para que luego fuera capaz de buscar por s¨ª mismo. ¡°Cuando llevaba solo 10 documentos, el sistema ya hab¨ªa aprendido y ayudaba a la tarea de transcribir manualmente¡±, recuerda el historiador. Fue m¨¢s un a?o de ense?anza con la incertidumbre de si realmente ¡®Carabela¡¯ funcionar¨ªa o no. La duda qued¨® despejada cuando busc¨®, por primera vez, entre los 130.000 documentos la palabra ¡°naufragio¡± y el sistema le devolvi¨® 400 referencias. De ellas, 150 conten¨ªan informaci¨®n in¨¦dita para el CAS.?
¡°Aunque los documentos est¨¦n catalogados o digitalizados, hay que tener en cuenta que el 80% o 90% del contenido de los archivos es desconocido¡±, asegura el arque¨®logo. ¡®Carabela¡¯, en fase beta y consultable en la red, ha demostrado salvar ese escollo con ¨¦xito, pero tambi¨¦n se puede convertir en un peligro para cazatesoros y piratas que rastrean las referencias escritas de hundimientos para expoliar los yacimientos subacu¨¢ticos. Por ello, los art¨ªfices del programa han optado por limitar el acceso a las im¨¢genes que usaron del Archivo de Indias, donde se atesoran 80 millones de documentos sobre el comercio con Am¨¦rica durante siglos. Adem¨¢s, el programa, ha servido para clasificar los documentos indexados seg¨²n su nivel de riesgo de exhibici¨®n p¨²blica. Esto permitir¨¢ saber f¨¢cilmente qu¨¦ partes sensibles de los archivos hay que proteger.
La nueva piedra de Rosetta de los legajos se perfila ya como una futura herramienta de gran utilidad para los investigadores, ¡°aunque todav¨ªa queda mucho por desarrollar y mejorar¡±, asegura el historiador gaditano. De hecho, sus desarrolladores sue?an con seguir mejorando el algoritmo en futuros proyectos para afinar a¨²n m¨¢s la b¨²squeda y que el sistema sea incluso capaz de producir transcripciones aproximadas de p¨¢rrafos seleccionados por los usuarios. ¡°Es un proyecto experimental con buen resultado. La clave ahora es la sensibilidad que desde el mundo de los archivos demuestren por ¨¦l¡±, zanja ilusionado Alonso.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.