Las matem¨¢ticas detr¨¢s de la detecci¨®n de ¡®malware¡¯
Los algoritmos de aprendizaje autom¨¢tico se entrenan con grandes cantidades de datos (ya resueltos) para despu¨¦s predecir ciertas caracter¨ªsticas de datos nuevos
Los virus inform¨¢ticos conocidos como software malicioso (o malware) son una seria amenaza para usuarios, empresas u organizaciones gubernamentales. Generalmente, se comportan de manera similar a una persona perversa: puede parecer maravillosa, pero en realidad ser muy da?ina; quedarse en silencio y arremeter poco a poco; unirse con otras para atacar a una persona concreta; u obtener informaci¨®n confidencial de la v¨ªctima (secretos personales) y usarla para estafarla. Hoy en d¨ªa, para detectarlos y minimizar los da?os ocasionados, se emplean algoritmos matem¨¢ticos de aprendizaje autom¨¢tico.
Los antivirus tradicionales se basaban en identificar cada virus con una cadena de caracteres de longitud fija (HASH), obtenida al aplicar un algoritmo de encriptaci¨®n. El programa almacenaba estas cadenas en una lista negra y cuando analizaba un fichero nuevo, obten¨ªa su HASH correspondiente y buscaba coincidencias en la lista; si se encontraba alguna, saltaba una alarma. Pero en la actualidad, el malware es m¨¢s avanzado y es capaz de mutar evitando ser detectado, por lo que no basta con este m¨¦todo, sino que se hace uso de herramientas de aprendizaje autom¨¢tico.
Los algoritmos matem¨¢ticos de aprendizaje autom¨¢tico se entrenan con grandes cantidades de datos (ya resueltos) para despu¨¦s predecir ciertas caracter¨ªsticas de datos nuevos, como se muestra en la Figura 1. Por ejemplo, un algoritmo de reconocimiento facial emplea millones de fotos en las que se ha identificado una cara para establecer un cierto patr¨®n, de manera que cuando se introduzca una foto cualquiera, este podr¨¢ predecir d¨®nde se encuentra una posible cara.
El proceso autom¨¢tico de detecci¨®n de malware se basa en extraer ciertas caracter¨ªsticas de un tipo de virus, como el n¨²mero de registros, tama?o, instrucciones o entrop¨ªa (el grado de desorden), y tambi¨¦n de su comportamiento (las conexiones que realiza, accesos a ficheros, procesos que ejecuta¡). Una vez obtenidas, se aplica un algoritmo matem¨¢tico que aprende el comportamiento de estas caracter¨ªsticas, y crea un modelo general para detectar los virus.
Entre los algoritmos m¨¢s conocidos se encuentra el llamado clasificador Bayesiano ingenuo. Se basa en el teorema de Bayes, que expresa la probabilidad de que suceda un evento aleatorio (A), condicionado a que haya sucedido otro (B). En el caso de la detecci¨®n de malware, el algoritmo crea un modelo a partir de archivos clasificados como malware e inofensivos. Para ello, se extraen las caracter¨ªsticas de los archivos (B), y se calculan las probabilidades de que aparezcan cuando un fichero es malware (A) y cuando es inofensivo (A¡¯). Para clasificar un fichero nuevo, se calcula la probabilidad de que este pueda ser malware (A) e inofensivo (A?), dependiendo de las caracter¨ªsticas que muestre (B); si la primera probabilidad es mayor que la segunda, el fichero se considera malware.
Tambi¨¦n se utilizan los algoritmos basados en arboles de decisi¨®n, diagramas que representan condiciones l¨®gicas que ocurren de manera sucesiva, llevando a una u otra soluci¨®n dependiendo de las reglas aplicadas. Un ejemplo se puede ver en la Figura 2.
Un algoritmo popular en ciberseguridad ?es el de?Bosques Aleatorios??(Random Forest). ?ste crea ¨¢rboles de decisi¨®n seleccionando un subgrupo de caracter¨ªsticas del malware de manera aleatoria. Cada ¨¢rbol contiene unas caracter¨ªsticas espec¨ªficas; si estas son m¨¢s frecuentes en ficheros maliciosos, se etiqueta como tal, y como inofensivo en caso contrario. Cuando se analiza un fichero nuevo, cada ¨¢rbol expresa su preferencia (o voto), es decir, c¨®mo lo clasificar¨ªa dependiendo de sus caracter¨ªsticas. Por ejemplo, si el fichero nuevo presenta las caracter¨ªsticas del ¨¢rbol 1 y ¨¦ste se encuentra etiquetado como inofensivo, el ¨¢rbol 1 clasificar¨¢ el fichero nuevo c¨®mo inofensivo. Finalmente, se toma la decisi¨®n que ha obtenido mayor¨ªa de votos, c¨®mo se puede apreciar en la Figura 3.
En la actualidad aparece otro inconveniente: la presencia de uno o varios adversarios que pueden pasar desapercibidos y hacer que los algoritmos de detecci¨®n fallen. Los adversarios pueden atacar de diferentes formas: ¡°envenenando¡± los datos para introducir informaci¨®n err¨®nea, por ejemplo, afirmar que un malware es inofensivo; realizando ataques de evasi¨®n, modificando el malware de manera intencionada para confundir al algoritmo; o ataques de inferencia, basados en producir malware que trata de encontrar los l¨ªmites de detecci¨®n del algoritmo.
Como contramedida, los modelos avanzados de An¨¢lisis de Riesgos Adversarios (ARA) buscan modelizar la incertidumbre de los atacantes haciendo uso de an¨¢lisis de riesgos y teor¨ªa de juegos, teniendo en cuenta que los adversarios son racionales, aunque en ciertas ocasiones no tienen por qu¨¦ actuar de forma racional. Hoy en d¨ªa, grupos de investigaci¨®n de todo el mundo, y proyectos como CYBECO, trabajan para mejorar estas herramientas y con ellas aumentar la seguridad de los sistemas inform¨¢ticos.
Alberto Redondo Hern¨¢ndez es estudiante de doctorado en la Universidad Aut¨®noma de Madrid y miembro del Instituto de Ciencias Matem¨¢ticas.
Caf¨¦ y Teoremas es una secci¨®n dedicada a las matem¨¢ticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matem¨¢ticas (ICMAT), en la que los investigadores y miembros del centro describen los ¨²ltimos avances de esta disciplina, comparten puntos de encuentro entre las matem¨¢ticas y otras expresiones sociales y culturales, y recuerdan a quienes marcaron su desarrollo y supieron transformar caf¨¦ en teoremas. El nombre evoca la definici¨®n del matem¨¢tico h¨²ngaro Alfred R¨¦nyi: "Un matem¨¢tico es una m¨¢quina que transforma caf¨¦ en teoremas".
Edici¨®n y coordinaci¨®n: ?gata Tim¨®n (ICMAT)
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.