Milagros Miceli, investigadora: ¡°Es mentira que la IA va a automatizarlo todo. Necesita el trabajo manual y precarizado de millones de personas¡±
La experta del Instituto Alem¨¢n de Internet advierte de que el auge de herramientas como ChatGPT aumentar¨¢ la demanda de gente que genere contenidos por poco dinero para enriquecer las bases de datos
La inteligencia artificial (IA) no es tan autom¨¢tica como se predica. Esta tecnolog¨ªa funciona gracias potentes computadoras que ejecutan c¨¢lculos sobre extensas bases de datos. Pero esas bases de datos hay que arreglarlas y probarlas, un trabajo manual que las empresas subcontratan a legiones de trabajadores a los que se paga generalmente muy poco; a veces, c¨¦ntimos de d¨®lar por cada tarea realizada. Esta realidad qued¨® descrita en...
La inteligencia artificial (IA) no es tan autom¨¢tica como se predica. Esta tecnolog¨ªa funciona gracias potentes computadoras que ejecutan c¨¢lculos sobre extensas bases de datos. Pero esas bases de datos hay que arreglarlas y probarlas, un trabajo manual que las empresas subcontratan a legiones de trabajadores a los que se paga generalmente muy poco; a veces, c¨¦ntimos de d¨®lar por cada tarea realizada. Esta realidad qued¨® descrita en el libro Ghost Work (en espa?ol, Trabajo fantasma), publicado en 2019 por Mary Gray, antrop¨®loga e investigadora de Microsoft, y su colega Siddarth Suri.
En el momento de publicarse esa obra, Milagros Miceli (Buenos Aires, 41 a?os), soci¨®loga y doctora en Ciencias de la Computaci¨®n, llevaba ya dos a?os investigando el tema. Cuando la contrataron en el reci¨¦n creado Instituto Alem¨¢n de Internet ¡ªque lleva el nombre del pionero en IA Joseph Weizenbaum¡ª, se abordaban las consecuencias sociales de los algoritmos desde un punto de vista muy te¨®rico. Miceli quiso ir m¨¢s all¨¢. ¡°Me pregunt¨¦ si alguien estaba hablando con la gente detr¨¢s de esos algoritmos. As¨ª llegu¨¦ hasta los anotadores de datos, quienes etiquetan im¨¢genes de sillas con la palabra ¡®silla¡¯ para que la m¨¢quina aprenda a distinguirlas, y luego en los trabajadores de datos, un concepto que desarrollamos nosotros¡±, explica.
Desde entonces, Miceli ha seguido ese tema. Hoy es una de las principales expertas en el poco conocido campo de los trabajadores de datos. Tambi¨¦n es investigadora principal en DAIR Institute, el centro fundado por Timnit Gebru, la responsable de ¨¦tica de la IA de Google que fue despedida poco despu¨¦s de firmar un informe en el que la empresa no sal¨ªa bien parada. Ha participado este mes de diciembre en las III Jornadas sobre pensar la justicia digital global, celebradas en Barcelona, para hablar sobre todo ello.
Pregunta. ?Qu¨¦ es un trabajador de datos?
Respuesta. Una trabajadora de datos es una persona que, b¨¢sicamente, produce datos para entrenar sistemas de IA. Esa tarea puede desarrollarse grabando su propia voz, subiendo selfis, etiquetando y clasificando datos, interpret¨¢ndolos¡ Lo que mucha gente a veces no se imagina es que esto es un trabajo continuo, no se termina en el momento. Los sistemas requieren de trabajo manual, como mantener los conjuntos de datos, comprobarlos o afinarlos.
P. ?Qu¨¦ tipo de cualificaci¨®n hace falta para desarrollar estas tareas?
R. Existe el mito de que quienes hacen esto no son trabajadores cualificados. Pero, en la pr¨¢ctica, se trata de trabajadores que han cursado por lo menos estudios terciarios o superiores. Yo he conocido gente que tiene hasta doctorados y est¨¢ haciendo este tipo de trabajos.
P. ?D¨®nde se localizan los trabajadores de datos?
R. Abundan en poblaciones vulnerables o pobres, con una tasa de desocupaci¨®n muy alta, pero que tienen estudios superiores. La naturaleza del trabajo es realmente muy dif¨ªcil. Yo lo he probado. No solo requiere un nivel de conocimiento formal, sino tambi¨¦n artesanal.
P. ?Me podr¨ªa poner un ejemplo?
R. El etiquetado y la segmentaci¨®n de im¨¢genes satelitales son areas muy comunes. Es dificil¨ªsimo. Primero, es agotador para los ojos y la mano que mueve el rat¨®n sin parar. Adem¨¢s de eso, hay que estar muy atento para separar bien un ¨¢rbol de una persona, o una casa de un coche, en im¨¢genes que muchas veces son borrosas. Eso exige cierto conocimiento de la arquitectura y la vegetaci¨®n espec¨ªfica de un pa¨ªs. Y si uno lo hace mal, no le pagan nada.
P. ?Cu¨¢l es la situaci¨®n de los trabajadores de datos?
R. Sigue sin cambiar desde que esto empez¨®. Est¨¢n en situaci¨®n de total precariedad y desprotecci¨®n. Aqu¨ª manda lo que una vez se llam¨® la uberizaci¨®n del trabajo: se les paga por tarea cumplida, y no por el tiempo que les lleva hacer la tarea. En el caso de las trabajadoras de datos, no se cuenta el rato que tardan en loguearse, en encontrar una tarea disponible, que no siempre las hay, o en entender las instrucciones, que pueden ser muy complejas y que casi siempre est¨¢n en ingl¨¦s. Todo con el riesgo de que el cliente diga luego que no se hizo como ped¨ªa, y entonces no paga. Eso pasa en muchos casos, y encima el cliente tiene derecho a quedarse con los datos que le han sido entregados.
A algunos trabajadores de datos se les bloquea en las plataformas por hacer preguntas, por ejemplo, sobre el salario. Luego, algunas plataformas, como la mayor de todas, Amazon Mechanical Turk, no pagan con dinero, sino con vales, en este caso, para gastar en Amazon. As¨ª se hace un monopolio perfecto. Por supuesto, cuando al trabajador le pasa algo, como tener secuelas por trabajar con contenidos que sean psicol¨®gicamente perturbadores, nadie les ayuda. En muchos casos firmaron antes un acuerdo de confidencialidad que les proh¨ªbe revelar la naturaleza de lo que hacen. Algunas trabajadoras nos han dicho que, por ese motivo, y pese a sufrir estr¨¦s postraum¨¢tico, han evitado que les vean terapeutas. Tampoco pueden poner en su curr¨ªculum que han sido moderadoras de contenidos de tal gran plataforma.
P. ?Entonces, hay moderadores de contenido que no est¨¢n en n¨®mina, sino que entran por esta v¨ªa de microtrabajos?
R. Hay moderadores de contenido que no est¨¢n contratados, y la mayor¨ªa de los moderadores y moderadoras de contenido tienen contratos precarios a trav¨¦s de terceras empresas en Europa, pero muchos tambi¨¦n en pa¨ªses del sur global. Esas empresas, por cierto, son las mismas que antes hac¨ªan etiquetado de im¨¢genes. De hecho, muchas veces las mismas personas van rotando de un equipo al otro. Por otra parte, la moderaci¨®n de contenido muchas veces la hacen al mismo tiempo que el etiquetado de datos: deciden si lo que est¨¢n supervisando es o no discurso de odio, informaci¨®n que despu¨¦s sirve para entrenar los algoritmos.
P. ?Se sabe cu¨¢ntos trabajadores de datos hay?
R. Es muy dif¨ªcil dar un n¨²mero. El Banco Mundial, una instituci¨®n conservadora, dice que en el mundo hay entre 150 y 420 millones. Lo que s¨ª sabemos es que los n¨²meros han crecido exponencialmente en los ¨²ltimos a?os. Esto de que se va a automatizar el trabajo es mentira. La IA necesita mucho trabajo manual.
P. El discurso de la uberizaci¨®n dice que los microtrabajadores quieren realizar trabajos en momentos puntuales, como complemento de su salario. Lo mismo que argumentan en Glovo. ?Es as¨ª? ?Los trabajadores de datos lo son a tiempo completo o solo a ratos?
R. Es otro mito, s¨ª. Apenas hay trabajadores de datos ocasionales, y eso tiene que ver con la complejidad y alta profesionalizaci¨®n requeridas, como comentamos antes, para realizar estas tareas. Cuanto m¨¢s sofisticados se vuelven los modelos de IA, m¨¢s cualificados tienen que ser los trabajadores que operan con sus bases de datos. Ya no es como hace diez a?os, que se ped¨ªa identificar gatitos en una serie de fotos. Eso ya no existe. Para ganar algo de dinero en esto, es necesario trabajar todos los d¨ªas.
P. El ejemplo cl¨¢sico de microtrabajos digitales, como dice, era el etiquetado de im¨¢genes. ?Ahora qu¨¦ es lo m¨¢s demandado?
R. Hace siete a?os, cuando yo empec¨¦ en esto, la moda era el etiquetado de fotograf¨ªas. Lo importante era tener cantidad, no calidad. En 2019 hicimos un estudio en el que analiz¨¢bamos las instrucciones que se les daban a los trabajadores y la mayor¨ªa iban en esa l¨ªnea. Pero recientemente ha habido un vuelco muy marcado hacia las tareas que tienen que ver m¨¢s con lo ling¨¹¨ªstico y la IA generativa: producir datos desde cero con un prop¨®sito espec¨ªfico. Por ejemplo, se contratan artistas desocupados y se les pide que creen im¨¢genes de acuerdo con ciertas instrucciones b¨¢sicas, los llamados prompts. Eso luego se le da al algoritmo de Midjourney para que perfeccione su funcionamiento. O se contrata a periodistas o escritores para que escriban cr¨®nicas o historias cortas para que la m¨¢quina extraiga patrones. Tambi¨¦n se graba a personas leyendo textos en dialectos o lenguas minoritarias para enriquecer las bases de datos.
P. ?Puede funcionar la IA sin este trabajo manual? ?Necesita apoyo humano las 24 horas del d¨ªa?
R. Este sistema est¨¢ dise?ado para tener una disponibilidad de trabajadores las 24 horas del d¨ªa, los siete d¨ªas de la semana, y pag¨¢ndoles el m¨ªnimo indispensable. Y si no gustan las condiciones, las empresas se pueden mover al siguiente pa¨ªs o poblaci¨®n. Manda la gran escala, y eso funciona solamente si tenemos millones de trabajadores. Por supuesto, hay otra forma de hacer las cosas. Los modelos funcionan mejor si est¨¢n entrenados en conjuntos de datos m¨¢s peque?os, pero mejor curados. Para eso no necesitas millones de trabajadores, sino buenos profesionales y comunicarte con ellos. Lo contrario de la anonimidad y de la mediaci¨®n algor¨ªtmica.
P. Los ¨²ltimos modelos de IA generativa ya se han entrenado con todos los datos disponibles en internet, por lo que los de nueva generaci¨®n deber¨¢n incluir todo eso y adem¨¢s nuevos datos sint¨¦ticos o producidos de manera artificial. ?Cree que la IA generativa disparar¨¢ la demanda de trabajadores de datos?
R. Si tuviera que hacer un pron¨®stico es que los trabajadores de datos van a seguir creciendo. Incluso quienes apuestan a que el futuro est¨¢ en los datos sint¨¦ticos, los generados por m¨¢quinas, saben que eso es dif¨ªcil desde un punto de vista t¨¦cnico. Sin entrar en mucho detalle, entrenar una IA con datos generados por una IA produce un bucle, termina repitiendo lo mismo, es como un juego de espejos infinito. As¨ª que se seguir¨¢n necesitando escritores, artistas, periodistas o traductores para que generen datos que sirvan para enriquecer las bases de datos sobre las que se aplican los algoritmos.
Pero incluso si se pudiera entrenar modelos con datos sint¨¦ticos, seguir¨ªas necesitando trabajadores de datos para tareas de verificaci¨®n algor¨ªtmica, que consiste en sentarte, por ejemplo, con ChatGPT y hacerle preguntas y decir si lo que responde est¨¢ bien o mal, si hay una mejor opci¨®n, etc¨¦tera. Siguiendo con el lenguaje, se trata de algo din¨¢mico, que va cambiando. Los chatbots hay que perfeccionarlos constantemente, y eso solamente lo podemos hacer los humanos, porque conocemos y entendemos los contextos.
P. ?Por qu¨¦ cree que esta dimensi¨®n manual de la IA es tan opaca?
R. Es totalmente intencional. Se vende el mito de una tecnolog¨ªa que es milagrosa e incre¨ªblemente poderosa, y a la que debemos temer porque nos puede llegar a matar a todos. Yo a?ado a eso que esta tecnolog¨ªa est¨¢ basada en el trabajo en negro, en el trabajo precarizado, en el trabajo explotador de millones de trabajadores. Pero para vender ese mito de la tecnolog¨ªa ultrapoderosa y temible, hace falta borrar todo rastro de humanidad. Sin embargo, la IA no funcionar¨ªa sin legiones de trabajadores manuales. ?Para qu¨¦ seguir escondi¨¦ndolos y precariz¨¢ndolos?