La Universidad espa?ola, vivero de empresas de las tecnolog¨ªas de la lengua
Thera, Eleka y E-genio comercializan aplicaciones desde 2003. M¨¢s de 30 grupos universitarios investigan c¨®mo mejorar los sistemas de b¨²squeda de informaci¨®n en documentos digitales
Espa?a cuenta con una "pr¨®spera y amplia comunidad cient¨ªfica de las tecnolog¨ªas de la lengua", aquellas que mediante voz o texto permiten programar ordenadores de manera que se comporten como si entendiesen la lengua humana. Las palabras de Donia Scott, presidenta del Congreso de la Asociaci¨®n Internacional de Ling¨¹¨ªstica Computacional (ACL), que celebr¨® el pasado julio su 42? reuni¨®n anual en el recinto del F¨®rum, reflejan el estado de la cuesti¨®n en nuestro pa¨ªs de una disciplina cient¨ªfica muy ligada a la inteligencia artificial y que re¨²ne las inquietudes de las humanidades con las de la ciencia y la tecnolog¨ªa.
En Espa?a hay m¨¢s de 30 grupos de investigaci¨®n, repartidos por las universidades, que trabajan en reconocimiento de voz, procesamiento del lenguaje natural, traducci¨®n de texto a texto y s¨ªntesis de voz, los cuatro procesos b¨¢sicos de estas tecnolog¨ªas. La Sociedad Espa?ola para el Procesamiento del Lenguaje Natural, fundada en 1984, agrupa a m¨¢s de 300, entre socios y empresas. Manuel Palomar, su presidente y catedr¨¢tico de Lenguajes y Sistemas Inform¨¢ticos de la Universidad de Alicante, asegura: "Ahora podemos transferir aplicaciones que beneficien a la sociedad. Las de texto son las m¨¢s avanzadas. Las de voz son m¨¢s complejas porque es dif¨ªcil detectar los distintos tonos".
El grupo de Palomar, en colaboraci¨®n con las universidades de Ja¨¦n, la Polit¨¦cnica de Valencia y la UNED, trabaja para mejorar los actuales sistemas de b¨²squeda de informaci¨®n, uno de los retos de las tecnolog¨ªas de la lengua. "Se trata de hacer b¨²squedas concretas en documentos digitalizados. Es decir que si queremos saber qu¨¦ mide la torre Eiffel, obtengamos una respuesta concreta ya que la m¨¢quina se encarga de la criba de datos". El buscador Tabarca, funciona desde julio con esta tecnolog¨ªa.
'Desambiguaci¨®n'
El problema de estos sistemas "es el tiempo de respuesta. Una de sus soluciones pasa por la desambiguaci¨®n del significado, una t¨¦cnica que pone cada palabra en su contexto pero que todav¨ªa no est¨¢ resuelta", dice Alfonso Ure?a, de la Universidad de Ja¨¦n. Su grupo (entre otros) trabaja en sistemas de recuperaci¨®n de informaci¨®n multiling¨¹e que incorporen t¨¦cnicas del procesamiento del lenguaje natural; "es decir que incorporan sin¨®nimos, tiempos verbales y realizan an¨¢lisis sint¨¢ctico y sem¨¢ntico tanto en el idioma de la consulta como en otras lenguas".
Otro campo son los sistemas de extracci¨®n de informaci¨®n en documentos digitales. "XNotarial es una aplicaci¨®n que extrae de las escrituras de compraventa los nombres del vendedor, comprador y la finca autom¨¢ticamente", explica Palomar.
El Centro de Tecnolog¨ªas y Aplicaciones del Lenguaje y del Habla (TALP), de la UPC, est¨¢ especializado en el del tratamiento autom¨¢tico del lenguaje natural oral y escrito. "TALP participa con varios grupos europeos en el desarrollo de una agenda electr¨®nica capaz de traducir conversaciones completas del ingl¨¦s al castellano o catal¨¢n", explica Horacio Rodr¨ªguez.
Otra consecuencia de la explosi¨®n investigadora son las empresas salidas de las universidades. Todas, en 2003. Como Thera, del grupo Clic de la Universidad de Barcelona, que comercializa Ontology, un programa para clasificar documentos de cualquier fuente electr¨®nica a gran velocidad (65.000 palabras por segundo). Adem¨¢s, tiene analizadores morfol¨®gicos y sint¨¢cticos del catal¨¢n, castellano e ingl¨¦s.
Otro ejemplo es Eleka, surgida del Grupo IXA de la Universidad del Pa¨ªs Vasco, que vende un software que reconoce textos en euskera mientras est¨¢n siendo escaneados de un libro. "Eleka utiliza lematizadores (programas que detectan la ra¨ªz de una palabra); WordNet, diccionario multiling¨¹e donde las palabras est¨¢n organizadas por campos sem¨¢nticos o un corrector ortogr¨¢fico que se adapta a los procesadores de texto", dice Arantxa D¨ªaz de Ilarraza, de IXA.
E-genio, salida del laboratorio de bases de datos de la Universidad de A Coru?a, ha incorporado a la Biblioteca Virtual Galega un sistema que permite buscar cualquier palabra, frase o conjunto de caracteres en cualquiera de las obras almacenadas all¨ª. Nieves R. Brisaboa, directora del laboratorio coru?¨¦s, explica que "E-genio tambi¨¦n ha digitalizado todos los fondos documentales de la Real Academia Gallega. En breve, su p¨¢gina incorporar¨¢ la hemeroteca virtual resultante".
SEPLN: www.sepln.org
UA: http://gplsi.dlsi.ua.es
TALP: http://www.talp.upc.es/
THERA: www.thera-clic.com
ELEKA: www.eleka.es
BVG: http://bvg.udc.es/index.jsp
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.