DeepSeek: el modelo chino de IA que lleg¨® para corregir el mercado
El mejor modelo de inteligencia artificial del mercado es chino, barato, gratuito y de c¨®digo abierto. ?Es una aplicaci¨®n segura o un troyano para dominar Occidente?
El mejor modelo de inteligencia artificial del mercado es chino, barato, gratuito y de c¨®digo abierto. Lo que parece una buena noticia para los consumidores ha hecho que el fabricante de chips Nvidia sufra la ca¨ªda m¨¢s grande de la historia de la bolsa, con mordiscos importantes a Google, Amazon, y Microsoft; que Meta declare el estado de emergencia y el inversor tecnol¨®gico Marc Andreessen declare que estamos viviendo un momento Sputnik. Todo eso fue el pasado lunes. Ahora por fin tenemos un momento para reflexionar.
Lo primero que hay que tener en cuenta es que el mercado de inversi¨®n estaba deseando este correctivo. El a?o pasado, grandes instituciones financieras como Goldman Sachs, Sequoia Capital, Moody¡¯s o Barclays, publicaron informes poniendo en duda la rentabilidad de las fara¨®nicas infraestructuras que demandan las empresas de IA, con promesas que no se materializan. ¡°Para justificar una inversi¨®n de un bill¨®n de d¨®lares, la IA necesita resolver problemas complejos y ayudarnos a hacer cosas que no pod¨ªamos hacer antes¡±, dijo Jim Covello, de Goldman Sachs, en The Atlantic. DeepSeek les ha dado la prueba que necesitaban: entrenar grandes modelos no requiere 100.000 tarjetas Nvidia H100s ni una arquitectura fara¨®nica en continua expansi¨®n. Se puede hacer m¨¢s con mucho menos. La Ley de Kaplan, que dice que es inevitable escalar el modelo, no es verdad.
Lo segundo, que al menos uno de ¡°los siete magn¨ªficos¡± sab¨ªa que esto iba a pasar. En un documento interno filtrado hace dos a?os, un ingeniero de Google advert¨ªa que el c¨®digo abierto estaba a punto de adelantarles por la derecha. ¡°Los modelos de c¨®digo abierto son m¨¢s r¨¢pidos, m¨¢s personalizables, m¨¢s privados y, en t¨¦rminos relativos, m¨¢s capaces.¡± Su consejo era aprender a colaborar con gente fuera de Google. Demis Hassabis, jefe de IA en la empresa, dijo que el documento era aut¨¦ntico y que no estaba de acuerdo con ¨¦l. La cuesti¨®n es c¨®mo ha pasado.
Los grandes modelos como ChatGPT o Claude est¨¢n t¨ªpicamente entrenados a trav¨¦s de un proceso de aprendizaje supervisado a gran escala, y despu¨¦s son afinados con aprendizaje de refuerzo asistido para ¡°alinear¡± los resultados con la cultura y los valores deseados. La diferencia entre el aprendizaje supervisado y el reforzado es que el primero aprende con datos que han sido etiquetados previamente por humanos, con una respuesta correcta y conocida para cada ejemplo de entrenamiento. Esta forma de ¡°estudiar¡± requiere preparar los conjuntos de datos, un trabajo donde se invierte mucho tiempo. Tambi¨¦n requiere mucha energ¨ªa para procesar toda esa ¡°memoria¡± cada vez. El aprendizaje reforzado, sin embargo, usa contenidos que no han sido necesariamente etiquetados, y funciona con un proceso de prueba y error; o de castigo y recompensa. Se suele decir que uno es como estudiar con libros de texto y un profesor que te va corrigiendo los resultados; y el otro es como salir a la calle solo a montar en bici. Aprendes a base de golpes, ca¨ªdas y carreras triunfales que, cuando te salen, son recompensadas con endorfinas que te marcan el camino a seguir.
Seg¨²n el paper acad¨¦mico que lo acompa?a, DeepSeek ha invertido el proceso. Empiezan con una peque?a base de entrenamiento supervisado para que el modelo aprenda un m¨ªnimo de gram¨¢tica y estructura y evitar as¨ª problemas de comunicaci¨®n y legibilidad; pero el grueso del entrenamiento es aprendizaje reforzado, con bases de datos sin etiquetar. Esto reduce no s¨®lo el coste de preparaci¨®n de los datos sino el esfuerzo de computaci¨®n, porque no tiene que cargar esos conjuntos de datos masivos en su memoria. Tambi¨¦n se ha inventado varios atajos, como bajar la resoluci¨®n de los datos de entrenamiento a 8 bits, en lugar de los 32 o 16 bits tradicionales para ajustarse a las limitaciones de los chips m¨¢s antiguos. DeepSeek dice que ha sido entrenada con 5,6 millones de d¨®lares y 2.048 chips H800 de Nvidia durante dos meses. El H800 es una versi¨®n de menor potencia del chip H100s de Nvidia. Fue dise?ado para vender en el mercado chino de acuerdo con las nuevas leyes de exportaci¨®n de EE UU.
Es posible que las limitaciones impuestas por la Administraci¨®n Biden, que el a?o pasado prohibi¨® a Nvidia vender sus chips A100 o H100 a las empresas chinas, hayan obligado a los desarrolladores chinos a ser m¨¢s ingeniosos que sus colegas en California. Sus pol¨ªticas de inmigraci¨®n recientes pod¨ªan haber contribuido tambi¨¦n. La di¨¢spora asi¨¢tica ha jugado un papel significativo en el desarrollo de tecnolog¨ªas de Silicon Valley. Devolver todos esos cerebros tiene que haber beneficiado la cultura local. ?Tanto como para permitir que un peque?o fondo de inversiones rompa, no s¨®lo la hegemon¨ªa del mercado americano, sino tambi¨¦n a Alibaba, Biren Technology, MetaX, o Huawei? De ser as¨ª, significar¨ªa que no hay que esperar nuevas remesas de Nvidia, lo cual justificaba su valoraci¨®n, sino que se pueden reciclar para la IA chips que estaban dedicados a otras cosas. Que la IA generativa no es demasiado cara y complicada para que la hagan m¨¢s de cinco empresas. Que se puede desarrollar una IA europea en la universidad.
Tambi¨¦n es posible que se haya gastado mucho m¨¢s dinero del que declara y haya tenido acceso a chips de vanguardia. Alexandr Wang, un actor central cuya empresa etiqueta bases de datos para aprendizaje supervisado, dice que ¡°DeepSeek tiene m¨¢s de 50.000 H100s, pero no lo dice por los controles de EE UU¡±. Lo que es evidente es que tienen que haber invertido mucho m¨¢s de lo que dicen en investigaci¨®n, y en experimentar con diferentes f¨®rmulas, antes de conseguir una buena. El desarrollo cient¨ªfico es as¨ª. Y es innegable que lo han hecho a hombros de la generaci¨®n anterior. Es m¨¢s: Sam Altman, de OpenAI, ha sugerido que los chinos han usado las respuestas generadas por ChatGPT-4 para entrenar su modelo, en lugar de hacerlo desde cero con datos originales. Esto les habr¨ªa ahorrado el paso del aprendizaje supervisado, pero ser¨ªa una infracci¨®n de los t¨¦rminos de uso de OpenAI, y un momento de perfecto schadenfreude para todos los artistas, periodistas, cineastas, m¨²sicos, acad¨¦micos y usuarios cuyo trabajo ha sido digerido sin permiso para que exista ChatGPT.
En ¨²ltimo lugar, lo m¨¢s importante: ?es una aplicaci¨®n segura o un troyano del Ej¨¦rcito Popular de Liberaci¨®n para dominar Occidente? ¡°Si lo fuera les descubrir¨ªan muy r¨¢pido¡±, me dice el experto Mikko Hipponen, casualmente en Madrid invitado por el Instituto Aspen y Fundaci¨®n Telef¨®nica. DeepSeek-V3 puede ser instalado y destripado por cualquier usuario para ver lo que tiene, y en un mes nadie ha encontrado nada relevante. Por otra parte, los datos de entrenamiento y la metodolog¨ªa no han sido compartidos. Eso significa que no se puede reconstruir desde cero, lo cual lo descalifica como verdaderamente abierto, pero tambi¨¦n que no sabemos hasta qu¨¦ punto ha sido adoctrinado con propaganda del Gobierno chino. De momento sabemos que no quiere hablar de Tiannamen. Estar¨¢ a sus anchas con un ChatGPT que se niega a hablar de sexo, el Grok que duda de la legitimidad de las elecciones de 2020 y el Instagram que permite decir que ser gay es una enfermedad. Pero la mayor¨ªa de los usuarios no instalar¨¢n DeepSeek en servidores, sino que lo usar¨¢ como una aplicaci¨®n en su m¨®vil, generando la misma relaci¨®n de vigilancia y dependencia que una cuenta de Instagram o TikTok. Los t¨¦rminos y condiciones indican que los datos de los usuarios, incluidas las conversaciones y las respuestas generadas, ser¨¢n almacenados en servidores en China y utilizados con prop¨®sitos comerciales, incluyendo el entrenamiento de nuevos modelos. En ese sentido, DeepSeek no es ni mejor ni peor que ChatGPT, Claude, o Grok.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.