A la caza del plagio en las traducciones
El algoritmo creado por investigadores de la Polit¨¦cnica de Valencia "aprende" cu¨¢les son los cambios de un idioma a otro a partir de grandes colecciones de documentos
En la Sociedad de la Informaci¨®n es muy f¨¢cil perder el origen inicial de una idea, un texto o un tratado. Para mejorar la calidad de la informaci¨®n que proporcionan los motores de b¨²squeda, expertos del Laboratorio de Ingenier¨ªa en Lenguaje Natural (Lab NLE), integrado en el Grupo de Ingenier¨ªa del Lenguaje Natural y Reconocimiento de Formas (ELiRF ) de la Universitat Polit¨¨cnica de Val¨¨ncia han desarrollado un nuevo m¨¦todo para la detecci¨®n autom¨¢tica de textos plagiados y, en concreto, de plagio traducido, dentro del proyecto Text-Enterprise 2.0, financiado por el Ministerio de Ciencia e Innovaci¨®n.
Los resultados del trabajo se publicaron en febrero en Languages Resources and Evaluation Journal. "En nuestros d¨ªas, el problema del plagio, en particular el de texto, se ha incrementado debido al f¨¢cil acceso a grandes fuentes de informaci¨®n a trav¨¦s de medios electr¨®nicos. Desafortunadamente, su detecci¨®n es pr¨¢cticamente imposible de forma manual. Por ello, es importante desarrollar mecanismos automatizados que permitan realizar la tarea de detecci¨®n de plagio y as¨ª combatir la creciente tentaci¨®n de plagiar desde la web", apunta Paolo Rosso, investigador del Lab NLE y padre del proyecto de investigaci¨®n junto al estudiante de doctorado Alberto Barr¨®n-Cede?o.
El equipo trabaja con un "corpus de Tratados de la Uni¨®n Europea, pr¨¢cticamente en todos los idiomas m¨¢s usados. Del ingl¨¦s al espa?ol, del ingl¨¦s al alem¨¢n, al holand¨¦s, al franc¨¦s y al polaco, pero no a¨²n en valenciano. Se trata de un algoritmo o programa, que aprende posibles traducciones del ingl¨¦s al castellano", explica Rosso. "Al algoritmo se le pasa un cantidad bastante grande de pares de traducciones de un idioma a otro y cuando se le programa un texto traducido al castellano, por ejemplo, la base de datos donde est¨¢ la fuente en ingl¨¦s detecta cu¨¢ntos similares o partes de ese texto hay en la traducci¨®n con respecto a la fuente".
El programa, por tanto, no depende de un traductor. Sino que aprende de las posibles traducciones; es decir, de los pares en los dos idiomas que se analicen. "El plagio traducido se hace m¨¢s frecuente cuando la informaci¨®n que se busca no est¨¢ disponible en la Web en el idioma materno, por ejemplo el castellano. Si la detecci¨®n de plagio en una misma lengua es de por s¨ª complicada, ya que una persona puede modificar el texto original, cuando este cambio implica un cambio de lengua la dificultad es a¨²n mayor. Pocos son los m¨¦todos que han sido desarrollados para abordar este tipo de plagio", a?ade Rosso.
El modelo creado por los investigadores de la UPV se basa concretamente en modelos de traducci¨®n estad¨ªstica, que "aprenden" cu¨¢les son las potenciales traducciones de un texto de un idioma a otro a partir de grandes colecciones de documentos. "Con lo aprendido es posible calcular la similitud entre textos escritos en distintos idiomas y, si esta similitud es muy alta, se puede sospechar de la existencia de un caso de plagio traducido", apunta Barr¨®n-Cede?o.
Entre las aplicaciones figura la investigaci¨®n forense. "El objetivo es proporcionar la evidencia necesaria para que un experto tenga las mejores condiciones posibles para tomar una decisi¨®n final respecto a si ha habido o no plagio", describe Rosso. El profesor imparte la semana pr¨®xima un curso de detecci¨®n de plagio para los alumnos del Master de Ling¨¹¨ªstica Forense de la Universitat Pompeu Fabra, pero clarifica que los ling¨¹istas computacionales no tienen la presunci¨®n de sustituir a los ling¨¹istas forenses. "Pero como el plagio se puede hacer desde la web (copiar y pegar), es m¨¢s dif¨ªcil que el forense pueda rastrear todas las similitudes en diferentes fragmentos de textos supuestamente plagiados", puntualiza el investigador. "Nosotros como ling¨¹istas computacionales proporcionamos un subcojunto amplio de posibles fuentes de documentos a partir de los cuales se ha producido el presunto plagio".
En el marco de esta l¨ªnea de investigaci¨®n, el Lab NLE de la UPV ha organizado, conjuntamente con la Bauhaus Universitat Weimar (Alemania), y por tercer a?o consecutivo, una competici¨®n internacional sobre detecci¨®n autom¨¢tica de plagio, patrocinada por Yahoo! Research. La pr¨®xima cita tendr¨¢ lugar en Amsterdam en septiembre, dentro del foro europeo de evaluaci¨®n del CLEF.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.