Cinco maneras en que el ¡®machine learning¡¯ puede complicarte la vida
Cuando los datos nos representan mal, los sistemas que han aprendido de ellos nos tratan mal. Repasamos el origen de los sesgos m¨¢s frecuentes
El aprendizaje autom¨¢tico no cae del cielo. Se apoya en la asimilaci¨®n de patrones en datos hist¨®ricos y utiliza esto para generalizar lo aprendido a nuevas informaciones. Si los datos empleados en la fase de entrenamiento nos representan mal, los sistemas resultantes nos tratar¨¢n mal. Por los datos empieza el reguero de complicaciones que pueden hacer que estos sistemas automatizados y -en principio- libres de intereses particulares que afecten a su justo rendimiento, nos hagan una faena.
En este supuesto los datos, podr¨ªan ser, por ejemplo, un conjunto de fotos de gente de todas las edades; el sistema automatizado, una herramienta para detectar sonrisas; y la faena podr¨ªa concretarse en un mayor n¨²mero de errores en el caso de las mujeres, todo producto de que en las im¨¢genes empleadas para entrenar el sistema, este colectivo estaba menos representado.
"Pues no es para tanto", dir¨¢s. El problema es que el que est¨¦s escasamente representada en los datos es solo uno de los factores que pueden complicarte la vida. Y que esta miop¨ªa algor¨ªtmica puede afectar a asuntos mucho m¨¢s serios que tu sonrisa. Puede da?ar a tu salud, tu carrera, tu privacidad y seguridad... Y todo empieza por los datos. "Hoy en d¨ªa en los modelos de aprendizaje autom¨¢tico datos y algoritmos son indisociables: el algoritmo se adaptar¨¢ siempre a los datos de entrenamiento, por lo que es en los datos en donde reside el riesgo y donde han de focalizarse las acciones de mitigaci¨®n de estos riesgos", explica Juan Murillo, del ¨¢rea de estrategia global de datos de BBVA.
- Cinco semillas del mal (algoritmo)
Para Harini Suresh y John V. Guttag, investigadores de Instituto Tecnol¨®gico de Massachusetts (MIT), existen cinco fuentes de problemas que pueden lastrar las decisiones de un algoritmo. "El t¨¦rmino sesgo se refiere a una propiedad potencialmente da?ina de los datos", se?alan en un estudio sobre las consecuencias no intencionadas del machine learning.
La primera debilidad es que el mundo es mejorable. Aunque los datos se obtengan con medias perfectas y muestras idealmente dise?adas, la pura inercia de nuestra sociedad imperfecta puede contaminar el modelo. As¨ª, unos datos de criminalidad perfectamente recopilados podr¨ªan a¨²n reflejar factores hist¨®ricos que han contribuido a que en los barrios m¨¢s pobres haya m¨¢s incidencia. "Aunque un sistema as¨ª refleje el mundo con precisi¨®n, puede infligir da?os en parte de la poblaci¨®n", se?alan los investigadores.
Un caso real de este fen¨®meno, conocido como sesgo hist¨®rico, es el que se daba al buscar im¨¢genes de CEOs en Google. "En 2018, un 5% de los CEOs del Fortune 500 eran mujeres. ?Deben los resultados del motor de b¨²squeda reflejar ese n¨²mero?", se preguntaban los investigadores. Para el tit¨¢n de internet, la respuesta fue negativa: los resultados se ajustaron para mostrar una mayor proporci¨®n de mujeres.
- No nos representan
ImageNet es una base de datos de im¨¢genes de uso recurrente para el entrenamiento de sistemas de reconocimiento en la que la distribuci¨®n de la poblaci¨®n mundial aparece particularmente representada: un 45% de las fotograf¨ªas se han tomado en Estados Unidos y la mayor¨ªa representan a norteamericanos y europeos. En ImageNet, China concentra un 1% de las im¨¢genes.
Cuando se dan estos desequilibrios en la necesaria diversidad de los datos, nos encontramos con modelos que reconocen a la perfecci¨®n aquello que m¨¢s han visto y se hacen l¨ªos con los grupos menos presentes. Se trata de un sesgo de representaci¨®n. "Esto en ocasiones supone un reto porque no todos dejamos una huella digital de un volumen proporcional a nuestra participaci¨®n demogr¨¢fica, es el caso de los ancianos. A veces para que sean tenidos en cuenta por los algoritmos hay que sobreponderar la huella digital de colectivos minoritarios", a?ade Murillo.
- Malas medidas, malos resultados
En 2016, un algoritmo se hizo tristemente famoso por su tendencia a ver m¨¢s riesgos de criminalidad en la poblaci¨®n de color. La herramienta se llama COMPAS y se estaba empleando para apoyar puestas en libertad tempranas e incluso fijar fianzas y emitir sentencias. Aqu¨ª el problema fue el sesgo en las medidas empleadas para entrenar al algoritmo. "Es habitual que las comunidades minoritarias est¨¦n sometidas a mayor actividad policial y tengan tasas de detenciones superiores, hay un mapeo distinto desde el crimen hasta la detenci¨®n en estas comunidades", se?alan los investigadores.
?Nos estamos precipitando al poner en funcionamiento estos sistemas, vistos los riesgos que entra?an? "Podr¨ªa decirse que la manifestaci¨®n de ciertos sesgos suele ser el resultado de una precipitaci¨®n en la puesta en producci¨®n de una soluci¨®n anal¨ªtica, pero no necesariamente apunta a un problema de falta de madurez en la tecnolog¨ªa. Lo que ha fallado en estos casos es el control de calidad antes de poner un algoritmo en producci¨®n", razona Murillo.
- Algoritmos de talla ¨²nica
Uno para todos tampoco es una receta que funcione cuando diferentes colectivos pueden estar sometidos a condiciones diferentes. Aqu¨ª el algoritmo falla precisamente porque incorpora demasiada diversidad e incurre en lo que se conoce como sesgo de agregaci¨®n. Los investigadores del MIT ponen de ejemplo las complicaciones asociadas a la diabetes y c¨®mo estas var¨ªan en funci¨®n de la etnia de los afectados.
"Es dif¨ªcil que un ¨²nico modelo se ajuste a cualquier grupo de poblaci¨®n, aunque est¨¦n igualmente representados en los datos, porque diferentes factores tienen distintos significados e importancias dentro de una subpoblaci¨®n", se?alan.
- Aprobados regalados
La aplicaci¨®n de controles de calidad tampoco es garant¨ªa de que el algoritmo est¨¦ libre de pecado, sobre todo cuando los aspectos que eval¨²an no bastan para certificar su correcto rendimiento. Este detalle es, por ejemplo, responsable de que sistemas de reconocimiento facial que en principio han sido validados resulten imprecisos una vez en el mercado. As¨ª lo comprob¨® otra pareja de investigadores del MIT, Joy Buolamwini y Timnit Gebru, al analizar tres sistemas de clasificaci¨®n de g¨¦nero: las mujeres de color presentaban tasas de error del 34.7%, mientras que los hombres blancos obten¨ªan una tasa del 0,8%.
Este sesgo de evaluaci¨®n se les escap¨® porque las mujeres de color tambi¨¦n estaban infrarrepresentadas en los datasets empleados para hacer el control de calidad, de modo que aunque se dieran errores, estos afectaban muy levemente a la valoraci¨®n global de la precisi¨®n del algoritmo.
En este contexto han surgido herramientas como Aequitas o AI Fairness 360 permiten evaluar lo algoritmos para identificar sesgos antes de que sea demasiado tarde. ?Son suficientes? "Pueden ayudan a industrializar y escalar determinadas verificaciones de control de calidad, comprobando por ejemplo el equilibrio de los colectivos representados en los datasets de entrenamiento, y acelerando controles que hoy en d¨ªa son manuales, pero hay otras verificaciones que deber¨¢n seguir siendo llevadas a cabo por los cient¨ªficos de datos", asegura Murillo.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.