IBM usa t¨¦cnicas de an¨¢lisis gen¨¦tico para filtrar el 'spam'
Ha creado un algoritmo para los correos basura partiendo de otro que aplicado a investigar prote¨ªnas
El env¨ªo masivo de correos no solicitados es una plaga que afecta a casi todos los internautas. Pese a las t¨¦cnicas de filtrado existentes, muchas empresas trabajan en nuevas soluciones, pero lo que pocos pod¨ªan imaginar es que los trabajos de Crick y Watson sobre la secuenciaci¨®n molecular servir¨ªan para combatir el 'spam'. Bi¨®logos computacionales del Centro de Investigaci¨®n TJ Watson de IBM aseguran haber desarrollado un filtro anti-spam siguiendo el camino que esos investigadores usaron para analizar secuencias gen¨¦ticas.
Seg¨²n cuenta hoy Cinco D¨ªas, el nuevo sistema a¨²n tiene que pasar algunas pruebas piloto antes de que vigile las bandejas de entrada de los correos de los usuarios, pero la tecnolog¨ªa desarrollada promete buenos resultados. La nueva herramienta aprende autom¨¢ticamente pautas propias del vocabulario del 'spam'. Y su eficacia ha demostrado ser de un 96,5%.
Los bioinform¨¢ticos de IBM Isidore Rigoutsos y Tien Huynh comenzaron a idear el algoritmo en el que se basa el nuevo filtro hace algo m¨¢s de un a?o, y le han bautizado con el nombre de Chung-Kwei. La BBC informa de que los investigadores crearon su algoritmo partiendo de otro que se aplicaba a la investigaci¨®n sobre las prote¨ªnas. Pero en lugar de identificar elementos propios de ¨¦stas, IBM sustituy¨® estos elementos por secuencias de caracteres que aparecen ¨²nicamente en mensajes de 'spam'. 'Obviamente, los algoritmos son aplicables a un vasto rango de problemas', explica Rigoutsos.
El nuevo sistema funciona considerando los correos como un conjunto de palabras y combinaciones de letras y s¨ªmbolos. Mediante el an¨¢lisis de dos colecciones de e-mails, una de 'spam' y otra de correo bueno, crea diccionarios con las combinaciones m¨¢s frecuentes en cada uno. As¨ª, es capaz de analizar y comparar cada mensaje con estos diccionarios, estableciendo un umbral a partir del cual los que lo superen son considerados 'spam' y marcados como tal.
Seg¨²n reconoce Rigoutsos, su trabajo se ayud¨® de los grandes vol¨²menes de 'spam' que ¨¦l y sus colegas reciben en sus puestos de trabajo. 'Hemos experimentado con grandes colecciones de e-mails. Tenemos 66.000 mensajes que son 'spam' y 22.000 que no lo son', a?ade Rigoutsos, quien explica que 'entrenar 88.000 mensajes lleva aproximadamente 15 minutos en un procesador simple. Si una hora m¨¢s tarde tenemos m¨¢s 'spam', podemos a?adirlo a la colecci¨®n para seguir aprendiendo cada vez m¨¢s'. En pruebas recientes el filtro s¨®lo fall¨® en la identificaci¨®n de un mensaje de entre un total de 6.000 correos basura.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.