Una inteligencia artificial de c¨®digo abierto es posible (y muy necesaria)
Conseguir que el desarrollo de la IA sea accesible, democr¨¢tico y transparente, como ocurri¨® con el de la World Wide Web, es crucial para nuestro futuro
Hay pocas cosas menos democr¨¢ticas que un modelo generativo de inteligencia artificial. La clase de m¨¢quinas que requiere, la cantidad de recursos que consume, el volumen de datos con los que se entrena y el talento especializado que necesita convierten la carrera por sintetizar la inteligencia humana en el juego de unos pocos privilegiados. Y sin embargo, es crucial que existan alternativas abiertas al desarrollo pri...
Hay pocas cosas menos democr¨¢ticas que un modelo generativo de inteligencia artificial. La clase de m¨¢quinas que requiere, la cantidad de recursos que consume, el volumen de datos con los que se entrena y el talento especializado que necesita convierten la carrera por sintetizar la inteligencia humana en el juego de unos pocos privilegiados. Y sin embargo, es crucial que existan alternativas abiertas al desarrollo privado de la inteligencia artificial para garantizar el beneficio de todos. C¨®mo conseguirlo, esa es la cuesti¨®n.
Meta e IBM acaban de presentar una alianza para impulsar una coalici¨®n de m¨¢s de 50 empresas e instituciones basada en un modelo abierto de inteligencia artificial. ¡°En lugar de tener docenas de empresas construyendo muchos modelos de IA diferentes, un modelo de c¨®digo abierto crea un est¨¢ndar de la industria, al igual que el modelo de Internet en 1992¡å, explic¨® Yann LeCun, jefe de IA de Meta, el pasado septiembre frente al Comit¨¦ de Inteligencia del Senado de Estados Unidos. Un mes antes, Meta y Microsoft hab¨ªan presentado Llama 2 como la pr¨®xima generaci¨®n de, dijeron, ¡°nuestro modelo de lenguaje grande de c¨®digo abierto¡±. Y, sin embargo, la licencia de Llama 2 no ha sido aprobada por la Open Source Initiative, autoridad mundial en categorizar software de c¨®digo abierto, porque no cumple los criterios necesarios.
En el mundo del software, abierto no equivale a gratuito. Y no basta con abrir parte del c¨®digo para que otros lo usen gratis o desarrollen aplicaciones sobre ¨¦l. Debe ofrecer acceso y transparencia suficientes para que otros puedan comprender el sistema y adaptarlo a sus necesidades sin pedir permiso, y sin costes de licencia o derechos de autor. Tampoco puede discriminar el acceso a ciertos usuarios o restringir el uso para ciertos prop¨®sitos. La licencia de Llama 2 proh¨ªbe expresamente su uso para entrenar otros modelos de lenguaje y lo limita a 700 millones de usuarios al mes. La OSI ha exigido a Meta que modifique su licencia o deje de llamarla c¨®digo abierto. Est¨¢ por ver si la Alianza de la IA que ha anunciado con IBM ser¨¢ ¡°abierta¡± solo de nombre o de verdad.
Lo llaman abierto y no lo es
¡°Los t¨¦rminos ¡®abierto¡¯ y ¡®c¨®digo abierto¡¯ se utilizan de manera confusa y diversa, a menudo constituyendo m¨¢s una aspiraci¨®n o estrategia de marketing que un descriptor t¨¦cnico, y mezclando con frecuencia conceptos tanto del software de c¨®digo abierto como de la ciencia abierta¡±, se lee en Abierto (Para Negocios): Grandes Tecnol¨®gicas, Concentraci¨®n de poder y la Econom¨ªa Pol¨ªtica de Open AI. Es el art¨ªculo de dos acad¨¦micos de la Carnegie Mellon University (EE UU) y el AI Now Institute, y Meredith Whittaker, presidenta de Signal Foundation, la organizaci¨®n detr¨¢s del sistema de mensajer¨ªa Signal. La confusi¨®n puede tener varias consecuencias.
Por ejemplo, la Ley de IA recientemente acordada en Europa reduce significativamente las responsabilidades de la IA de c¨®digo abierto, salvo que entren dentro de la categor¨ªa de riesgo sist¨¦mico o se utilicen con fines prohibidos. Se entiende que su transparencia garantiza una supervisi¨®n comunitaria para la detecci¨®n de errores y malas pr¨¢cticas sin orden judicial. Pero, aparte del acceso a los ¡°pesos¡± (los par¨¢metros internos que el modelo aprende durante el entrenamiento y que usa para hacer predicciones o tomar decisiones), la transparencia de una IA implica informaci¨®n sobre los datos de entrenamiento. No podemos saber c¨®mo ¡°piensa¡± o entender los valores de un modelo sin saber lo que estudi¨®.
Tambi¨¦n tiene consecuencias comerciales. Ofrecer acceso a una parte de un c¨®digo para que otros construyan sus productos y servicios con ¨¦l es una manera oblicua de establecer los est¨¢ndares de la industria y conseguir que otros trabajen gratis para ti. Google y Meta abrieron con licencias muy permisivas dos entornos para construir y entrenar modelos de inteligencia artificial de aprendizaje profundo: TensorFlow y PyTorch. Como consecuencia, universidades, laboratorios, startups y otros miembros de la comunidad los usan para sus propios proyectos de investigaci¨®n y desarrollo de aprendizaje profundo. Pero, al ofrecer acceso gratuito a su sistema, los dos gigantes se garantizan que todos los proyectos de c¨®digo abierto son interoperables con sus productos, manteniendo una supervisi¨®n interesada sobre cualquier desarrollo interesante, y soberan¨ªa absoluta sobre el c¨®digo original. Las licencias abiertas deben garantizar la soberan¨ªa sobre los proyectos y proteger a emprendedores, voluntarios e investigadores de trabajar gratis para una gran corporaci¨®n.
No es f¨ªsica de part¨ªculas
Para que un modelo de IA sea de c¨®digo abierto hace falta poder conocerlo, desmontarlo y reconstruirlo desde cero. Con el precio de salida, pocos pueden competir de manera individual. ¡°Aunque existen algunos sistemas de inteligencia artificial realmente abiertos, que ofrecen transparencia, reutilizaci¨®n y extensibilidad intencionales y extensas, los recursos necesarios para construir IA desde cero y desplegar grandes sistemas de IA a escala siguen siendo ¡®cerrados¡¯, disponibles solo para aquellos con recursos significativos, casi siempre corporativos¡± reconoce el art¨ªculo de Whittaker y coautores. Pero podemos decir lo mismo de la f¨ªsica de part¨ªculas. Y el CERN, una organizaci¨®n financiada con los presupuestos nacionales de sus 23 pa¨ªses miembros, ha adoptado principios de c¨®digo abierto, liberando muchos de sus proyectos y colaboraciones para beneficio de la comunidad global. Por ejemplo, la World Wide Web.
¡°No puedes proponer que algo sea un espacio universal y al mismo tiempo mantener el control sobre ello¡±, explic¨® Tim Berners-Lee, el ingeniero del CERN que un verano se invent¨® la web. En abril de 1993, CERN anunci¨® que los tres elementos fundacionales de la www (cliente, servidor y c¨®digo) entraban oficialmente en el dominio p¨²blico: ¡°El CERN renuncia a todos los derechos de propiedad intelectual sobre este c¨®digo, tanto en su forma fuente como binaria, y otorga permiso a cualquier persona para utilizarlo, duplicarlo, modificarlo y distribuirlo¡±. Y un detalle crucial: ¡°Los derechos de los usuarios ser¨¢n protegidos, en particular, al evitar que terceros conviertan el software libre en software propietario y nieguen a los usuarios el derecho de utilizar libremente el material¡±.
La IA de c¨®digo abierto existe, a menudo gracias al esfuerzo colectivo y al apoyo institucional. Andreas Liesenfeld, investigador del Centro de estudios del lenguaje de la Universidad de Radboud en Pa¨ªses Bajos public¨® este verano un ¨ªndice de accesibilidad de los modelos del lenguaje. El m¨¢s abierto es BLOOMZ (basado en PyTorch) y desarrollado por The BigScience Research Workshop, un proyecto que incluye a la agencia francesa de supercomputaci¨®n GENCI, IDRIS (dependiente del CSIC franc¨¦s) e ingenieros de Hugging Face, la gran plataforma para el desarrollo colaborativo de IA. El segundo es el chatbot Open Assistant de LAION-AI, una ONG alemana cuyo objetivo es ¡°poner a disposici¨®n del p¨²blico en general modelos, conjuntos de datos y c¨®digo relacionado de aprendizaje autom¨¢tico a gran escala¡±. Mistral, el unicornio franc¨¦s fundado por exempleados de Google y Meta y liderado por el joven Arthur Mensch, se distribuye con una licencia Apache 2.0, pero est¨¢ todav¨ªa en la mitad del r¨¢nking. Llama2 es uno de los menos abiertos del mercado. Moraleja: no nos fiemos de los nombres. El m¨¢s cerrado y opaco de todos es el de OpenAI.
Ap¨²ntate aqu¨ª a la newsletter semanal de Ideas.