La IA genera audios plagados de machismo, racismo e infracciones de derechos de autor
Un an¨¢lisis a 680.000 horas de sonidos en repositorios creados con inteligencia artificial revela contenido ofensivo y no autorizado, como ya sucede con textos e im¨¢genes
Desde melod¨ªas o transcripci¨®n de voz hasta asistencia para personas con discapacidad visual. La inteligencia artificial (IA) generativa de sonido ha avanzado a pasos agigantados hasta el punto de que ya es capaz de crear audio de alta calidad. Pese a esto, los datos que se utilizan para entrenar a la IA han pasado por alto los sesgos, el lenguaje ofensivo y el uso de contenido con derechos de autor, asegura...
Desde melod¨ªas o transcripci¨®n de voz hasta asistencia para personas con discapacidad visual. La inteligencia artificial (IA) generativa de sonido ha avanzado a pasos agigantados hasta el punto de que ya es capaz de crear audio de alta calidad. Pese a esto, los datos que se utilizan para entrenar a la IA han pasado por alto los sesgos, el lenguaje ofensivo y el uso de contenido con derechos de autor, asegura un estudio. Un equipo de investigadores ha realizado una exhaustiva revisi¨®n a 175 conjuntos de datos de habla, m¨²sica y sonido, y en un trabajo preliminar advierten de que existe material sesgado, similar a lo que se ha encontrado en las bases de datos de texto e imagen.
Durante un a?o, los cient¨ªficos liderados por William Agnew, de la Universidad Carnegie Mellon (EE UU), estudiaron 680.000 horas de audio de siete plataformas y 600 investigaciones en total para analizar su contenido, sesgos y procedencia. As¨ª, los cient¨ªficos obtuvieron desde la transcripci¨®n discursos hasta letras de canciones, y la mayor¨ªa estaban en ingl¨¦s. Los archivos inclu¨ªan grabaciones de voz ¡ªfrases le¨ªdas por personas¡ª y piezas musicales de plataformas como AudioSet y Free Music Archive, adem¨¢s de dos millones de videos de YouTube de 10 segundos de duraci¨®n.
El an¨¢lisis detect¨®, por ejemplo, que la palabra hombre se relacion¨® con conceptos como guerra o historia, mientras que los t¨¦rminos ligados a la palabra mujer incluyeron tienda o mam¨¢, asociados con los cuidados y la familia, pero en otros casos, detectaron insultos como perra. En particular, Free Music Archive y LibriVox, conten¨ªan miles de t¨¦rminos racistas (como negrata) y discriminatorios con la diversidad sexual. ¡°Las voces queer son ignoradas por los investigadores y eso se debe en parte c¨®mo se construyeron estos conjuntos de datos¡±, plantea Robin Netzorg, investigadora del habla en la Universidad de California y coautora del estudio.
Los investigadores creen que si los estereotipos no se abordan adecuadamente, los conjuntos de datos de audio pueden generar modelos que ¡°perpet¨²en o incluso aceleren¡± los prejuicios y concepciones distorsionadas de la realidad. Julia Barnett, doctora en ciencias de la computaci¨®n de la Universidad Northwestern (EE UU) y colaboradora del estudio, asegura que las personas no son conscientes de los sesgos. ¡°Como consecuencia, al considerar un conjunto de datos como un reflejo de la humanidad sin entender su verdadera composici¨®n, se generar¨¢n numerosos efectos negativos m¨¢s adelante¡±, dice.
Para Andr¨¦s Masegosa, experto en inteligencia artificial y profesor asociado en la Universidad de Aalborg, en Dinamarca, no hay nada sorprendente en los sesgos: ¡°Esta tecnolog¨ªa consigue extraer patrones de un conjunto de datos y simplemente intenta replicar lo que ya existe¡±. La IA funciona muy parecida al aprendizaje humano, sugiere. ¡°Si t¨² expones a un ni?o a un comportamiento machista, ¨¦l va a reproducir ese sesgo de forma simplemente inconsciente¡±, sostiene el acad¨¦mico, que no particip¨® de la investigaci¨®n.
¡°Hay muchos intentos para evitar los sesgos y lo que est¨¢ claro es que los modelos pierden capacidad. Hay un debate en el campo de la IA que est¨¢ reflejado en las diferentes visiones que cada sociedad tiene¡±, agrega Masegosa. El experto reconoce que el estudio realizado es una gran auditor¨ªa, y opina que examinar los conjuntos de datos es un trabajo bastante costoso.
A diferencia de los datos de texto, los de audio requieren un mayor almacenamiento, plantea Sauvik Das, acad¨¦mico del Instituto de Interacci¨®n Humano-Computadora de la Universidad Carnegie Mellon, que s¨ª particip¨® en la investigaci¨®n. Esto implica que necesitan una potencia de procesamiento mucho m¨¢s alta para ser auditados. ¡°Necesitamos m¨¢s datos para tener modelos de mayor calidad¡±, argumenta.
La voz es un dato biom¨¦trico
El da?o potencial de las tecnolog¨ªas de audio generativo a¨²n no se conoce. Los cient¨ªficos plantean que este tipo de contenido tendr¨¢ implicaciones sociales y legales que abarcan desde el derecho de publicidad de las personas, la desinformaci¨®n y la propiedad intelectual, especialmente cuando estos sistemas est¨¢n entrenados con datos utilizados sin autorizaci¨®n. El estudio se?ala que al menos el 35% de los audios analizados presentaban contenido protegido por copyright o derechos de autor.
La voz se relaciona con el derecho a la propia imagen, pues forma parte de las caracter¨ªsticas f¨ªsicas de una persona. Borja Adsuara, abogado experto en derecho digital, se?ala que la voz tiene los mismos problemas que el texto e imagen generados con IA, en relaci¨®n con protecci¨®n de datos y la propiedad intelectual. ¡°La voz es un dato biom¨¦trico y est¨¢ especialmente protegido como la huella dactilar o el iris del ojo. Puede ser vulnerada si no est¨¢ consentido su uso¡±, explica este especialista.
Adsuara recuerda la conocida controversia que protagoniz¨® la actriz Scarlett Johansson, cuando en mayo de 2024 el chatbot Sky, de OpenAI, ten¨ªa un tono parecido a su voz. La IA tambi¨¦n ha utilizado las voces de m¨²sicos para simular que cantan melod¨ªas que nunca han interpretado, como le ocurri¨® al puertorrique?o Bad Bunny y la artista espa?ola Bad Gyal. ¡°No solo infringe los derechos de imagen a la propia voz, sino tambi¨¦n los derechos de propiedad intelectual a la interpretaci¨®n. Los problemas son los mismos y lo que hace la inteligencia artificial generativa es que sea mucho m¨¢s f¨¢cil cometer delito o cometer una intromisi¨®n¡±, explica.