El mono ladr¨®n inmortal
La teor¨ªa de la probabilidad dice que hasta los eventos m¨¢s improbables pueden ocurrir, siempre que haya suficiente tiempo, recursos y oportunidades
?Podr¨ªa un mono inmortal, tecleando aleatoria e infinitamente en una m¨¢quina de escribir, producir Hamlet palabra por palabra? En La biblioteca de Babel, Borges describe una biblioteca infinita que contiene todos los libros que podr¨ªan ser escritos. La teor¨ªa de la probabilidad dice que hasta los eventos m¨¢s improbables pueden ocurrir, siempre que haya suficiente tiempo, recursos y oportunidades. Si la industria tecnol¨®gica es una secta, esta es su religi¨®n.
En la ideolog¨ªa del Valle, cualquier problema puede ser solucionado con suficiente dinero, tiempo, programadores y p...
?Podr¨ªa un mono inmortal, tecleando aleatoria e infinitamente en una m¨¢quina de escribir, producir Hamlet palabra por palabra? En La biblioteca de Babel, Borges describe una biblioteca infinita que contiene todos los libros que podr¨ªan ser escritos. La teor¨ªa de la probabilidad dice que hasta los eventos m¨¢s improbables pueden ocurrir, siempre que haya suficiente tiempo, recursos y oportunidades. Si la industria tecnol¨®gica es una secta, esta es su religi¨®n.
En la ideolog¨ªa del Valle, cualquier problema puede ser solucionado con suficiente dinero, tiempo, programadores y potencia de computaci¨®n. Pocos casos m¨¢s ilustrativos que Theranos, el unicornio de Elizabeth Holmes. La ¡°innovadora¡±, ¡°disruptiva¡± y ¡°pionera¡± empresa que promet¨ªa revolucionar la medicina con una m¨¢quina capaz de hacer an¨¢lisis complejos a partir de una sola gota de sangre no se dej¨® desalentar por las leyes de la f¨ªsica y la estad¨ªstica, que dec¨ªan que no hay gl¨®bulos suficientes en una muestra tan peque?a para detectar un c¨¢ncer, un embarazo o una artritis. Ahora Holmes cumple condena por fraude, pero el Valle no ha corregido su error.
En el mundo de la inteligencia artificial, esta religi¨®n se manifiesta como las ¡°leyes de escalamiento o escalabilidad¡±. No son leyes reales, pero dicen que lo ¨²nico que nos separa de la Inteligencia Artificial General son ordenadores m¨¢s potentes, programadores m¨¢s listos y m¨¢s bases de datos para entrenar los modelos de IA. Lo primero est¨¢ ya consumiendo m¨¢s agua, ox¨ªgeno y energ¨ªa que un pa¨ªs europeo mediano. Lo segundo est¨¢ por ver. Lo tercero es menos problem¨¢tico, pero solo si ignoras la calidad, origen y licencia del contenido original.
Los primeros modelos de IA fueron entrenados con los frutos de la web 2.0: blogs, webzines, posts, tuits, pins, reddits y todas las dem¨¢s manifestaciones de la Red social. Tambi¨¦n con el contenido de bibliotecas, peri¨®dicos, archivos universitarios y otros contenedores de material trabajosamente digitalizado durante los ¨²ltimos 20 a?os. La reciente investigaci¨®n de Christo Buschek y Jer Thorp sobre LAION-5B demuestra que la selecci¨®n es m¨¢s oportunista que deliberada.
Los m¨¦todos de selecci¨®n de contenidos para alimentar la IA son puramente automatizados, sin intervenci¨®n humana alguna, y est¨¢n supeditados a la accesibilidad y pre-etiquetado de las muestras, no a su calidad. Tampoco hay supervisi¨®n, ni la habr¨¢ nunca. ¡°Alguien que trabajara ocho horas al d¨ªa, cinco d¨ªas a la semana revisando cada imagen de esta base de datos durante al menos un segundo, tardar¨ªa 781 a?os en mirarlo todo¡±, dicen Buschek y Thorp. Esto explica por qu¨¦ aparecen im¨¢genes de explotaci¨®n de menores en los modelos comerciales de IA. Estaban bien etiquetadas. Estaban en internet.
El m¨¦todo no ha cambiado. Mira Murati, jefa de seguridad de OpenAI, declar¨® recientemente que hab¨ªan entrenado Sora, su modelo de generaci¨®n de video, con ¡°datos p¨²blicos¡±. No quiere decir ¡°en el dominio p¨²blico¡± sino pescados indiscriminadamente de YouTube, Instagram o TikTok. No est¨¢n solos. En las pruebas del juicio de The New York Times contra OpenAI, vemos que los abogados de Meta aconsejaron robar lo que haya disponible y enfrentarse a posibles demandas, mejor que perder tiempo esperando a que editores, artistas o m¨²sicos firmen contratos de cesi¨®n. Dicen que Google no ha querido demandar a OpenAI porque probablemente est¨¢ haciendo lo mismo que ellos. A qui¨¦n le sirve un mono que tiene que robar, estafar y quemar el planeta para escribir Hamlet. Para qu¨¦ es.