?Algoritmos machistas o racistas? Esta es una misi¨®n para 600 superh¨¦roes
Un estudio realizado por cient¨ªficos de datos de BBVA junto a la Universidad de Barcelona utiliza una base de datos de justicieros de ficci¨®n para encontrar un modo de frenar los sesgos
Digamos que el Capit¨¢n Am¨¦rica pide una hipoteca. O que se presenta como candidato en un proceso de selecci¨®n para un puesto de trabajo. O que se enfrenta al control de pasaportes en una visita a un pa¨ªs que no lleva su nombre. Pongamos ahora que la Capitana Marvel sigue sus pasos. Y que Black Panther hace lo mismo.
Si vivi¨¦ramos en el universo de Marvel, donde estos tres habr¨ªan salvado el planeta un sinf¨ªn de veces, ?qu¨¦ te parecer¨ªa que a alguno de ellos le negasen la hipoteca, el empleo o la entrada al pa¨ªs en virtud de su raza o sexo? ?Y si esto lo estuviera haciendo un algoritmo?
"Los algoritmos reproducen los sesgos existentes en los datos: los algoritmos est¨¢n sesgados porque los datos lo est¨¢n. El primer paso para corregir los sesgos es ser conscientes de su existencia", se?ala Irene Unceta, cient¨ªfica de datos de la Factor¨ªa de Inteligencia Artificial de BBVA. El segundo es tomar cartas en el asunto. Y eso es lo que ha hecho Unceta junto a Jordi Nin y Oriol Puyol en un estudio en que el banco ha colaborado con la Universidad de Barcelona.
Los tres investigadores han empleado una base de datos integrada por m¨¢s de 600 justicieros de ficci¨®n para poner en pr¨¢ctica su propuesta para eliminar sesgos algor¨ªtmicos. "Optamos por la base de datos de superh¨¦roes para evitar el uso de datos confidenciales o potencialmente sensibles", se?ala Unceta.
- ?Bueno o malo?
La tarea del clasificador de machine learning es sencilla: determinar si estos superh¨¦roes son de los buenos o de los malos, en virtud de la informaci¨®n proporcionada. El modelo inicial tomaba sus decisiones bas¨¢ndose en los datos al completo: nombre, g¨¦nero, poderes, raza, color de pelo, altura... Por ejemplo, Hellboy es hombre, tiene los ojos dorados, tiene (entre otros) el poder de la longevidad y el de la s¨²per fuerza, es de los buenos, mide 259 cent¨ªmetros, pesa 158 libras -71,6 kilos- y no nos llevamos las manos a la cabeza con su ¨ªndice de masa corporal, porque no es de raza humana, sino demoniaca. "Curiosamente, eran los superh¨¦roes del g¨¦nero masculino los que estaban porcentualmente peor clasificados por el modelo original", se?ala Unceta.
Una vez vistos los sesgos del modelo, el equipo procedi¨® a tomar medidas. El sistema que proponen Unceta, Nin y Pujol pasa por el empleo de lo que se conoce como copias. Lo bueno de esta propuesta es que permite corregir los sesgos en sistemas de aprendizaje autom¨¢tico que ya han sido entrenados y sin que sea necesario acceder a los datos originales. "Al final del proceso se obtiene un nuevo modelo que, a grandes rasgos, se comporta igual que el primero pero que adem¨¢s da respuesta a una necesidad que el anterior no era capaz de satisfacer. En este caso esa necesidad es la de no discriminar a los superh¨¦roes por su raza o g¨¦nero", explica la cient¨ªfica de datos.
- Segunda vuelta
La copia evita los errores de su antecesora y clasifica a los superh¨¦roes haciendo caso omiso de las variables sensibles que afectaban a su rendimiento. "Las variables consideradas sensibles y que pueden dar lugar a pr¨¢cticas discriminatorias son las relativas al g¨¦nero, la raza, la religi¨®n, la orientaci¨®n sexual, etc. De entre ellas, tan solo las dos primeras estaban originalmente en la base de datos de superh¨¦roes", precisa Unceta. Con estos ajustes, la copia obtiene resultados m¨¢s equilibrados. "Observamos que la disparidad entre los grupos de hombres y mujeres se reduce notablemente", se?ala el estudio. "Esta simple aproximaci¨®n resulta en una cierta mitigaci¨®n del sesgo para el atributo de g¨¦nero".
Sin embargo, la omisi¨®n de variables sensibles no es infalible. "Puede eliminar el sesgo siempre que no existan variables adicionales que est¨¦n correlacionadas con aquellas que han sido eliminadas", advierte la investigadora. Por ejemplo, en zonas altamente segregadas el c¨®digo postal puede ser una variable del origen ¨¦tnico, de modo que aunque no se est¨¦ facilitando directamente esta informaci¨®n, esta podr¨ªa inferirse. "En general, es necesario asegurar que no existan variables correlacionadas y, en caso de existir, aplicar la medidas necesarias para asegurar que no se filtre la informaci¨®n sensible".
Esta receta para poner fin a las injusticias del machine learning es un paso m¨¢s en la cruzada de la comunidad cient¨ªfica contra los sesgos que no son otra cosa que el reflejo de las desigualdades de la sociedad en que vivimos. "Existen salvaguardas, auditor¨ªas y regulaciones internas y externas orientadas a evitar el trato discriminatorio, y se avanza con el estado del arte elaborando gu¨ªas t¨¦cnicas para los equipos anal¨ªticos".
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.