?rase una vez el sesgo: as¨ª se fabrica la ecuanimidad en Google
Tulsee Doshi, responsable de la iniciativa de ¡®machine learning¡¯ justo del gigante de Mountain View, explica c¨®mo trabajan para parar los pies a las consecuencias negativas de esta tecnolog¨ªa
Los humanos tenemos una larga historia de crear productos que no necesariamente est¨¢n alineados con las necesidades de todo el mundo. ¡°Las mujeres al volante eran un 47% m¨¢s propensas a resultar gravemente heridas en los accidentes de coche hasta 2011 porque los fabricantes de autom¨®viles no estaban obligados a usar maniqu¨ªes femeninos en los tests de choques¡±, explica Tulsee Doshi, responsable de la iniciativa de machine learning justo de Google en una conferencia del ciclo TechTalks de la ACM. Como consecuencia de la falta de maniqu¨ªes representativos, los responsables de la seguridad de todos los conductores no entend¨ªan el impacto de los cinturones o los airbags sobre una parte sustancial de ellos en caso de colisi¨®n.
No es un caso aislado. En los a?os cincuenta, Kodak calibraba el color sus tarjetas usando a una modelo blanca. Tuvieron que llegar los noventa para que nada m¨¢s y nada menos que los chocolateros y los fabricantes de madera se quejaran de que el color de sus productos no quedaba bien retratado en sus fotos. ¡°Estos dos ejemplos no son machine learning y tampoco son ejemplos de malas intenciones o deseo de discriminar; son ejemplos de lo que pasa cuando dise?amos tecnolog¨ªas en funci¨®n de qui¨¦n las est¨¢ ideando. El objetivo de lanzar algo deprisa puede hacer que sesgos inconscientes y estereotipos penetren en nuestros productos¡±.
El fallido est¨¢ndar de maniqu¨ªes no cay¨® del cielo y la falta de colores tampoco, la culpa es de los humanos que estaban al volante en el momento de decidir c¨®mo se iban a hacer las cosas. ¡°Los humanos tambi¨¦n est¨¢n en el centro del desarrollo del machine learning¡±, se?ala Doshi. Y tambi¨¦n pueden meter la pata sin m¨¢s intenci¨®n que la de tener su nuevo producto listo cuanto antes.
Pasa en las mejores casas, y en la de Google tambi¨¦n. Un ejemplo es Perspective, una API creada con el noble objetivo de promover conversaciones m¨¢s sanas en la red y contribuir a facilitar la moderaci¨®n de contenidos. El funcionamiento es sencillo. El sistema se limita otorgar una puntuaci¨®n a los contenidos: pr¨®xima al cero si son inocuos y m¨¢s cercana al uno si son t¨®xicos.
Doshi pone el ejemplo de dos posibles comentarios ante la foto de un cachorro. La opci¨®n qu¨¦ cachorrito tan dulce, quiero abrazarlo para siempre se lleva una puntuaci¨®n del 0.07. En cambio, este es el peor ejemplo de cachorrito que he visto nunca alcanza el 0.84. ¡°Es un comentario desagradable y lleno de odio¡±, explica Doshi. Pero bueno, el animal no se entera de nada, as¨ª que todo quedar¨ªa en una an¨¦cdota. El problema lleg¨® cuando el equipo de desarrolladores cre¨® una demo y la abri¨® a los usuarios. ¡°Un usuario introdujo dos frases: soy heterosexual y soy gay¡±, recuerda la experta. El resultado ofrecido por Perspective fue de un 0,04 y un 0,86, respectivamente. ¡°Por supuesto, esta es una diferencia que no queremos ver en nuestros productos. No queremos que la presencia de un t¨¦rmino de identidad pueda cambiar dr¨¢sticamente la predicci¨®n¡±.
Donde nacen los sesgos
En general, la puesta en marcha de sistemas de aprendizaje autom¨¢tico sigue un procedimiento com¨²n. Recopilar datos, etiquetarlos, entrenar al modelo para alcanzar ciertos objetivos, integrar esto en un producto y ponerlo a disposici¨®n de los usuarios para que interact¨²en con ¨¦l. ¡°Lo interesante es que la injusticia puede entrar en el sistema en cualquier punto del proceso¡±, asegura Doshi. Hasta los usuarios pueden incorporar sus propios sesgos al modo que usan el producto.
¡°Es muy raro que se pueda encontrar una sola causa o una sola soluci¨®n para estos problemas y con frecuencia es el modo en que estas distintas causas interact¨²an entre ellas lo que produce resultados como los que coment¨¢bamos¡±, explica la experta. Dos ejemplos de esto son el caso de un clasificador de g¨¦nero y el mism¨ªsimo traductor de Google. El primero, cuya funci¨®n era clasificar im¨¢genes, daba como resultado un mayor n¨²mero de errores para el colectivo de mujeres negras. En el segundo, las traducciones de ciertos idiomas resultaban problem¨¢ticas: en turco, doctor (m¨¦dico en ingl¨¦s) se traduc¨ªa por defecto en masculino y nurse (enfermera), en femenino.
Son dos problemas distintos con dos soluciones distintas. En el caso del clasificador, la respuesta fue recabar m¨¢s datos del colectivo de mujeres negras para entrenar mejor al modelo. Para Google Translate, se busc¨® una manera de ofrecer el m¨¢ximo de informaci¨®n al usuario: ¡°Decidimos dar los dos contextos, tanto la versi¨®n masculina como la femenina¡±, resume Doshi. ¡°Estas dos soluciones son valiosas maneras de hacer avanzar la conversaci¨®n sobre la justicia. Y son dos maneras de asegurar que la experiencia de los usuarios es inclusiva y equitativa, pero son muy diferentes. Una aproximaci¨®n es m¨¢s t¨¦cnica y de base de datos, y la otra toma la perspectiva del dise?o de producto¡±.
Si los datos no van a Mahoma
En el caso de la API para medir la toxicidad de los contenidos, el camino es m¨¢s sinuoso. Empezaron por recolectar m¨¢s datos, a trav¨¦s de lo que llamaron Project Pride: ¡°Fuimos a diferentes desfiles del orgullo de todo el mundo para recopilar comentarios positivos sobre y de la comunidad LGTBQ¡±. Otra opci¨®n habr¨ªa sido generar datos sint¨¦ticos.
Adem¨¢s, probaron a evitar que el modelo tomase en cuenta las etiquetas de identidad en sus valoraciones. ¡°Por ejemplo, si tengo la frase algunas personas son indias, puedo tomar el t¨¦rmino indias y reemplazarlo por un token (s¨ªmbolo) de identidad en blanco¡±, explica Toshi. De este modo, se asegura que todas las identidades reciben el mismo tratamiento, pero tambi¨¦n se pierde informaci¨®n. ¡°Esto puede ser da?ino porque podr¨ªa ser ¨²til saber cu¨¢ndo ciertos t¨¦rminos de identidad se usan de manera ofensiva. Tenemos que tener cuidado de no clasificar mal los comentarios t¨®xicos, pero tambi¨¦n necesitamos asegurarnos de que no nos estamos perdiendo los comentarios que de verdad son t¨®xicos¡±.
Otra posible forma de abordar este desequilibrio es tomar en cuenta las diferencias en el rendimiento del modelo para los distintos grupos ¨Cen el ejemplo inicial, la diferencia entre las puntuaciones que obtienen las identidades heterosexual y gay¨C y establecer un sistema de penalizaci¨®n que le obligue a minimizarla esta distancia.
¡°Cada una de estas aproximaciones puede de verdad suponer una mejora significativa. Y tambi¨¦n se puede ver que estas mejoras son diferentes para los distintos grupos¡±, sentencia la experta. En este contexto, recomienda tener en cuenta que no existen soluciones de talla ¨²nica y que muchas alternativas tienen pros y contras. ¡°Como resultado de esto, es importante que seamos claros y transparentes sobre las elecciones que estamos haciendo¡±.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.