Los algoritmos tienen prejuicios: ellos son inform¨¢ticos y ellas, amas de casa
La inteligencia artificial puede ser sexista. Cinco cient¨ªficos nos explican por qu¨¦.
Es una verdad mundialmente reconocida que un hombre soltero, poseedor de una gran fortuna, necesita una esposa¡±. As¨ª arranc¨® Jane Austen su famosa novela Orgullo y Prejuicio?(1813). Preguntemos a un algoritmo que estudia el perfil psicol¨®gico y que ha desarrollado por la Universidad de Cambridge, a cien millas de donde vivi¨® la escritora inglesa, qu¨¦ nos dir¨ªa al analizar ese peque?o texto.
- La persona que lo escribi¨® es m¨¢s liberal y art¨ªstica que la media¡ ?Correcto!
- Es m¨¢s organizada y trabajadora tambi¨¦n¡ ?Correcto!
- Su edad ronda los 30 a?os¡ Aproximado
- La probabilidad de que sea un hombre es del 99%¡ ?Jane Austen?
?Un error casual? Pongamos a prueba al mismo algoritmo con otra mujer, esta vez de la ¨¦poca presente; Christine Lagarde. ?Qu¨¦ conclusiones extrae tras analizar un discurso suyo sobre econom¨ªa mundial?
- Que es el ¡°arquetipo de la masculinidad¡±¡
?Por qu¨¦? ?Ser¨¢ porque habla de econom¨ªa y crecimiento y eso es muy masculino? Probablemente¡ ?Y si resulta que la forma que tienen de aprender las m¨¢quinas por s¨ª solas (machine learning) tambi¨¦n contiene sesgos sexistas (y de otro tipo) que vemos en la sociedad? De eso va el art¨ªculo que han escrito Bolukbasi, Chang, Zou, Saligrama y Kalai, (Universidad de Boston y Microsoft), una referencia en este incipiente campo de investigaci¨®n.
Para poder adentrarse en este mundo de los algoritmos hay que comprender un poco mejor c¨®mo es su machine learning. Igual que los ni?os aprenden de sus padres, muchos algoritmos aprenden de los datos con los que se les alimenta. En el procesamiento natural del lenguaje, una de las t¨¦cnicas m¨¢s utilizadas consiste en cebar a la m¨¢quina con miles y miles de textos para que encuentre patrones y aprenda por s¨ª misma el idioma. Se llama mapeo de palabras (word embedding, en ingl¨¦s). ¡°Es una red artificial para entender la estructura de una frase. La m¨¢quina se alimenta con un mont¨®n de textos que representan el lenguaje que se est¨¢ estudiando¡±, explica ?lvaro Barbero, Chief Data Scientist del Instituto de Ingenier¨ªa del Conocimiento. ¡°El sistema aprende qu¨¦ palabras est¨¢n cercanas a otras y las convierte en n¨²meros para que la m¨¢quina pueda entender el lenguaje. Se utiliza bastante porque es un sistema muy efectivo¡±.
Dicho de otra manera, lo que hace el sistema/algoritmo es agrupar palabras por temas. Algo parecido a ordenar un armario (ahora que est¨¢ tan de moda), tenemos la secci¨®n abrigos, partes de arriba, camisetas, bufandas, calcetines¡ y luego establecemos combinaciones. ?Pero y si la m¨¢quina nos dice al ver unos pantalones que el sujeto es un hombre? ?Es que la mujer no puede llevar pantalones? No, es porque es m¨¢s probable estad¨ªsticamente que sea un hombre.
En el art¨ªculo de Bolukbasi et al. se aborda la problem¨¢tica de delegar totalmente en el machine learning sin tener en cuenta el riesgo de amplificaci¨®n de los sesgos presentes en los datos.
El estudio puede resultar un primer acercamiento al mundo de los algoritmos sin ser excesivamente t¨¦cnico. Adem¨¢s est¨¢ lleno de ejemplos de c¨®mo la t¨¦cnica de mapeo de palabras nutrida con datos de Google News (la base m¨¢s extensa de las que hay) est¨¢ llena de prejuicios y sexismo.
¡°Hay cientos o incluso miles de art¨ªculos escritos sobre mapeo de palabras y sus aplicaciones, desde la b¨²squeda en internet al an¨¢lisis de curr¨ªculos. Pero ninguno de estos estudios ha reconocido lo llamativamente sexistas que son estos mapeos y el riesgo que suponen por lo tanto a la hora de introducir sesgos en sistemas del mundo real¡±.
Los autores digamos que juguetearon con el algoritmo de la siguiente manera:
El hombre es a un rey lo que la mujer es a ¡°X¡±
X = reina (dec¨ªa la m¨¢quina).
Par¨ªs es a Francia lo que Tokio es a ¡°X¡±
X = Jap¨®n
El hombre es a programador inform¨¢tico lo que la mujer es a ¡°X¡±
X = ama de casa
Ups¡ ?Respuesta equivocada? No fue la ¨²nica asociaci¨®n sexista que encontraron en el sistema. Tambi¨¦n se toparon con las siguientes: Costura ¨C Carpinter¨ªa. Enfermera ¨C M¨¦dico. Rubia ¨C Corpulento. Dise?adora de interiores ¨C Arquitecto. Peque?a ¨C Alto¡
¡°El algoritmo es naif, as¨ª que reflejar¨¢ las caracter¨ªsticas de la muestra. En nuestro art¨ªculo analizamos Twitter, Web Crawl, Wikipedia y Google News y encontramos diversos tipos de sesgos en todos los casos. Por ejemplo, Wikipedia tiene menos sesgo racial que Google News, mientras que el sesgo de g¨¦nero es generalizado en todas las bases de datos¡±, aclara Bolukbasi.
En el extremo del g¨¦nero femenino el algoritmo entrenado por Google News sit¨²a profesiones como: ama de casa, recepcionista, bibliotecaria, peluquera, ni?era, contable¡ Mientras que en el lado m¨¢s masculino figuran: profesor, capit¨¢n, fil¨®sofo, financiero, locutor, mago, jefe¡
¡°En Wikipedia, Wager et al. encontraron, como suger¨ªa otro trabajo previo sobre el sesgo de g¨¦nero en el lenguaje, que en los art¨ªculos sobre mujeres se destacaba m¨¢s su g¨¦nero, sus maridos, los trabajos de sus parejas y otra serie de temas que en el caso de los art¨ªculos sobre hombres se trataban mucho menos. En cuando a palabras concretas, encontraron que algunas predec¨ªan el g¨¦nero. Por ejemplo ¡°marido¡± aparece considerablemente m¨¢s a menudo en art¨ªculos sobre mujeres mientras que ¡°b¨¦isbol¡± se dan m¨¢s en textos sobre hombres¡±.
- ?C¨®mo se cuantifica el sesgo?
Los autores utilizan como referencia emparejamientos neutrales: hermano ¨C hermana, rey- reina, padre ¨C madre. Es normal, y de esperar, que hermano est¨¦ mucho m¨¢s cerca del g¨¦nero masculino que del femenino. ?Pero qu¨¦ pasa si la palabra m¨¦dico se sit¨²a muy cerca del lado masculino? Solo ese dato no confirmar¨ªa el sesgo. S¨ª lo har¨ªa el hecho de que estuviera mucho m¨¢s cerca del lado masculino que del femenino. Para saber si hab¨ªa sesgo o no los autores recurrieron a trabajadores de Amazon Mechanical Turk, que opinaron si determinadas relaciones de palabras les parec¨ªan sexistas.
¡°Hay sesgos muy habituales que relacionan t¨¦rminos femeninos con liberal, art¨ªstico y familiar y t¨¦rminos masculinos con ciencia y carreras profesionales¡±.
Este gr¨¢fico del estudio muestra las palabras que est¨¢n contaminadas; las que est¨¢n por encima de la l¨ªnea horizontal. Por ejemplo: ama de casa (homemaker) est¨¢ mucho m¨¢s cerca del ¡°ella¡± (she) que del ¨¦l (he). ?Es esto un sesgo? Claramente. Genio (genius), por el lado contrario se asocia mucho m¨¢s al mundo masculino. Las palabras que est¨¢n por debajo de la l¨ªnea horizontal son las que tienen sentido que est¨¦n m¨¢s hacia un lado u otro porque su propia definici¨®n implica ya un g¨¦nero.
- As¨ª que tenemos un algoritmo infectado suelto. ?Se puede arreglar?
Los autores proponen un sistema para solucionarlo que dar¨ªa asociaciones mucho m¨¢s neutrales. Estos gr¨¢ficos muestran la efectividad de la correcci¨®n: en el caso de las analog¨ªas malas, se reduce tras modificar posteriormente el algoritmo (gr¨¢fico izquierda), mientras que el n¨²mero de las analog¨ªas apropiadas (gr¨¢fico derecha) no se ve reducido. Las relaciones tipo padre-madre no desaparecen.
Por ejemplo: un 19% de las 150 analog¨ªas seleccionadas se consideraban sexistas. Despu¨¦s de aplicar la modificaci¨®n (hard debiased) se redujeron al 6%. En el caso de ¡°¨¦l es m¨¦dico como ella es a X¡±, el algoritmo ya no dice ¡°X = enfermera¡± sino ¡°X = doctora¡±.
Las implicaciones de estas asociaciones sexistas pueden ir mucho m¨¢s all¨¢ de lo que es correcto o no: existe el peligro de que el efecto se pueda amplificar desde la red a la vida real. Los autores ponen un hipot¨¦tico ejemplo: si el algoritmo relaciona la inform¨¢tica m¨¢s con nombres de hombres que de mujeres, entonces puede llegar a influir en los motores de b¨²squeda; las p¨¢ginas de ¡°Jos¨¦¡± saldr¨ªan mucho m¨¢s arriba que las de ¡°Mar¨ªa¡±. ¡°Ser¨ªa todav¨ªa m¨¢s dif¨ªcil para una mujer ser reconocida como una inform¨¢tica y contribuir¨ªa a ampliar la brecha que ya hay entre hombres y mujeres en la inform¨¢tica¡±.
¡°Esto supone un riesgo importante y un reto para el machine learning y sus aplicaciones¡ En t¨¦rminos de palabras, la asociaci¨®n al g¨¦nero femenino de cualquier palabra, incluso una subjetivamente positiva como podr¨ªa ser 'atractiva', puede provocar discriminaci¨®n contra las mujeres si reduce la asociaci¨®n con otras palabras como 'profesional¡±.
Vivimos rodeados de muchos algoritmos cuyas f¨®rmulas desconocemos. El reciente caso de las noticias falsas y su propagaci¨®n a trav¨¦s de las redes sociales ya ha forzado algunos cambios matem¨¢ticos. Es dif¨ªcil saber si estamos expuestos a sesgos por todas partes. ¡°Es posible que tu solicitud de pr¨¦stamo al banco, o un detector de fraude o incluso Siri tengan sesgos. Es muy dif¨ªcil de decir pero estamos intentando construir un marco para saberlo y medirlo¡±, explica Bolukbasi.
Algunos alertan de que se est¨¢ creando ¡°la entidad m¨¢s discriminadora, terca y fascista que haya conocido la raza humana; la inteligencia artificial.¡± Pero esa m¨¢quina con conciencia todav¨ªa no se ha creado. Tenemos eso s¨ª, algoritmos y sus prejuicios.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.