Los ¡®deepfakes¡¯ de voz enga?an incluso cuando se prepara a la gente para detectarlos
Un estudio demuestra que los humanos no logran identificar con precisi¨®n los mensajes falsos de audio, que ya se usan en estafas
En 2019, el director de una empresa brit¨¢nica fue v¨ªctima de una estafa despu¨¦s de recibir un falso mensaje de voz de su gerente en que ped¨ªa la transferencia de 220.000 euros a un proveedor. Un a?o despu¨¦s, un gerente de banco en Hong Kong recibi¨® una llamada telef¨®...
Reg¨ªstrate gratis para seguir leyendo
Si tienes cuenta en EL PA?S, puedes utilizarla para identificarte
En 2019, el director de una empresa brit¨¢nica fue v¨ªctima de una estafa despu¨¦s de recibir un falso mensaje de voz de su gerente en que ped¨ªa la transferencia de 220.000 euros a un proveedor. Un a?o despu¨¦s, un gerente de banco en Hong Kong recibi¨® una llamada telef¨®nica de alguien que le sonaba familiar. Basado en su relaci¨®n existente, el banquero transfiri¨® 400.000 d¨®lares hasta que se dio cuenta de que algo estaba mal. Estos son solo ejemplos aislados, pero cada vez m¨¢s frecuentes. Ambos casos involucran el uso de tecnolog¨ªa deepfake para clonar las voces, una forma extremadamente sofisticada de manipular un contenido. Identificarla es un desaf¨ªo significativo que se volver¨¢ cada vez m¨¢s complicado a medida que la inteligencia artificial avanza r¨¢pidamente. Y no hay buenas noticias. Mientras algunas herramientas computacionales pueden detectarlas con cierto grado de precisi¨®n, las voces falsas enga?an a los humanos, incluso cuando las personas se entrenan.
Un estudio realizado con 529 personas, que se publica hoy en Plos One, demuestra que las habilidades humanas son poco eficaces a la hora de calificar sin un mensaje de voz es falso o verdadero. Los participantes fallaron una de cada cuatro veces que intentaron detectar correctamente estos deepfakes de voz y los esfuerzos para capacitarlos tuvieron efectos m¨ªnimos. La mitad del grupo recibi¨® un entrenamiento previo, donde pod¨ªan escuchar cinco ejemplos de voz sintetizada. A pesar de ello, la mejora fue tan solo del 3% en comparaci¨®n al otro.
Los investigadores del University College London, en Reino Unido, quer¨ªan adem¨¢s entender si el reto era m¨¢s f¨¢cil o dif¨ªcil seg¨²n las caracter¨ªsticas de diferentes idiomas, por lo cual condujeron las pruebas en ingl¨¦s y mandar¨ªn. Los hallazgos sugieren que las capacidades son equivalentes y ambos p¨²blicos se basaron en atributos similares a la hora de calificar la autenticidad de los mensajes, como la naturalidad y si sonaba rob¨®tico. ¡°Tanto los participantes de habla inglesa como los de mandar¨ªn mencionaron com¨²nmente las pronunciaciones incorrectas y las entonaciones inusuales en los clips de sonido al tomar decisiones¡±, explica Kimberly Mai, autora principal del estudio.
M¨¢s subjetivo que lo visual
Curiosamente, los participantes mencionaban las mismas caracter¨ªsticas, independientemente de si la respuesta era correcta o no. Mai explica que esto se debe a la subjetividad que implica un audio. A diferencia de la detecci¨®n de deepfakes visuales, donde se pueden ver objetos y escenarios para juzgar la autenticidad, la naturaleza auditiva del discurso hace que las percepciones sean m¨¢s subjetivas. ¡°Cuando se ven potenciales personas falsas, se puede contar el n¨²mero de dedos en sus manos o si sus accesorios coinciden¡±, dice la investigadora postdoctoral de la universidad brit¨¢nica.
Para comparar la capacidad humana con la tecnol¨®gica, los investigadores condujeron la misma prueba tambi¨¦n con dos detectores autom¨¢ticos. El primero fue un software entrenado con una base de datos ajena al estudio, que alcanz¨® el 75% de asertividad, cifra similar a las respuestas humanas. El segundo, entrenado con la versi¨®n original y sintetizada de la voz, pudo identificar la naturaleza de los audios con 100% de precisi¨®n. Seg¨²n subraya Mai, se da un mejor desempe?o porque los programas avanzados son capaces de identificar las sutilezas de la ac¨²stica, lo que no puede hacer una persona.
Los sonidos complejos, como el habla humana, contienen una mezcla de diferentes frecuencias, que es la cantidad de veces que una onda sonora se repite en un segundo. ¡°Los detectores autom¨¢ticos examinan miles de ejemplos de voz durante su fase de entrenamiento. A trav¨¦s de este proceso, pueden aprender sobre peculiaridades en niveles espec¨ªficos de frecuencia e irregularidades en el ritmo. Los humanos son incapaces de descomponer los sonidos de esta manera¡±, sostiene la investigadora.
Si bien los detectores automatizados han demostrado ser m¨¢s efectivos que los humanos en esta tarea, tambi¨¦n tienen limitaciones. Primero, no son accesibles para el uso cotidiano. Adem¨¢s, su rendimiento disminuye cuando hay cambios en el audio de prueba o en entornos ruidosos. Pero el mayor desaf¨ªo es que sean capaces de acompa?ar los avances en materia de inteligencia artificial generativa, puesto que se producen contenidos sintetizados cada vez m¨¢s realistas y de forma m¨¢s r¨¢pida. Si antes eran necesarias horas de grabaci¨®n para entrenar un programa, ahora se hace en unos pocos segundos, por ejemplo.
Fernando Cucchietti, experto ajeno al estudio, subraya que los resultados presentados tienen algunas limitaciones, dado que las condiciones del los experimentos ¡°son muy de laboratorio¡± y no traducen las amenazas cotidianas de este tipo de tecnolog¨ªa. ¡°No son realistas para situaciones donde los deepfakes puede ser problem¨¢ticos, por ejemplo, si conoces a la persona que est¨¢n imitando¡±, opina el responsable del grupo de An¨¢lisis y Visualizaci¨®n de datos del Barcelona Supercomputing Centre en declaraciones al Science Media Centre Espa?a. Pese a ello, Cucchietti subraya que las conclusiones se asemejan a otros estudios similares, y por tratarse de un entorno bastante controlado, ¡°los resultados est¨¢n menos afectados por otros factores, por ejemplo, prejuicios o sesgos previos, como en el caso de los estudios de desinformaci¨®n¡±.
Evitar las estafas
En el plano individual, las personas son poco fiables para detectar deepfakes de voz. Sin embargo, los resultados de la investigaci¨®n muestran que al agrupar las opiniones de m¨¢s individuos y tomar una decisi¨®n basada en una votaci¨®n mayoritaria, hay una mejora en la detecci¨®n. Kimberly Mai recomienda: ¡°Si escuchas un clip de audio del que no est¨¢s seguro porque el contenido parece inusual, por ejemplo, si implica una solicitud de transferir una gran cantidad de dinero, es una buena idea discutirlo con otras personas y verificar la fuente¡±.
Mai sugiere que la ruta para mejorar los detectores automatizados es hacerlos m¨¢s robustos ante las diferencias en el audio de prueba. Seg¨²n dice, su equipo est¨¢ trabajando para adaptar modelos b¨¢sicos que han funcionado en otros campos, como el texto y las im¨¢genes. ¡°Dado que esos modelos utilizan grandes cantidades de datos para el entrenamiento, es de esperar que generalicen mejor las variaciones en los clips de sonido de prueba¡±, subraya. Adem¨¢s, opina que las instituciones tienen la obligaci¨®n de tomar partido. ¡°Deben priorizar la implementaci¨®n de otras estrategias, como regulaciones y pol¨ªticas, para mitigar los riesgos derivados de los deepfakes de voz¡±, argumenta.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y Twitter o apuntarte aqu¨ª para recibir nuestra newsletter semanal.