As¨ª de r¨¢pido avanza la IA: DeepSeek superada en siete d¨ªas
La semana pasada la startup china revolucion¨® el sector. Esta semana, OpenAI lo revolucion¨® otra vez
Esto es un env¨ªo de la newsletter de Kiko Llaneras, un bolet¨ªn exclusivo para los suscriptores de El Pa¨ªs. Ap¨²ntate para recibir explicaciones y datos cada semana.
La semana pasada, la IA china de DeepSeek sacudi¨® el sector demostrando una eficiencia sorprendente: aunque no era el modelo m¨¢s potente, ofrec¨ªa gran rendimiento con muy bajo coste. Pero la evoluci¨®n del sector va a la velocidad de la luz: en cuesti¨®n de d¨ªas, OpenAI ha presentado un modelo mejor, o3-mini, que supera a DeepSeek en capacidad y en precio.
El gr¨¢fico siguiente compara distintos modelos en el test ARC-AGI, mostrando el grado de acierto frente al coste en d¨®lares por tarea. Resultado: el nuevo o3-mini cuesta tres veces menos que DeepSeek R1 y resuelve con acierto el doble de tareas.
Seg¨²n Artificial Analysis, o3-mini es no solo m¨¢s potente y econ¨®mico, sino tambi¨¦n considerablemente m¨¢s r¨¢pido que DeepSeek R1. El modelo de OpenAI lidera en livebench.ai, superando a DeepSeek R1 y tambi¨¦n a o1, que es mucho m¨¢s caro. El o3-mini es especialmente sobresaliente en problemas de programaci¨®n.
En mis pruebas estos d¨ªas, he usado la versi¨®n m¨¢s potente de o3-mini para diferentes cosas. Es realmente espectacular programando, especialmente en su primer disparo: a partir de tus instrucciones, devuelve c¨®digo que funciona casi siempre a la primera. Ahora mismo el reto no es tanto que haga lo que quieres, como saber expresar lo que quieres (si trabajas para clientes, ya sabes a qu¨¦ me refiero).
Por ejemplo, mirad la web que hice con o3-mini, sin tocar a mano ni una l¨ªnea de c¨®digo. Le ped¨ª coger las ocho reglas de mi libro y que crease ocho animaciones que ilustraran cada una. Funcion¨® a la primera. Luego us¨¦ Claude 3.5 para iterar durante una hora, hasta acabar con el resultado que ten¨¦is en el enlace anterior.
No es trivial saber que IA es mejor
Algo interesante de la batalla entre modelos es que no es trivial decidir cu¨¢l es el mejor, lo que nos habla de su poder multitarea. Cuando creamos algoritmos para jugar al ajedrez, es f¨¢cil saber que el mejor ser¨¢ el que gana las partidas. Pero juzgar modelos de lenguaje es m¨¢s complicado. Hay modelos buenos escribiendo texto, buscando en internet, siendo fiables, m¨¢s creativos o mejores resolviendo problemas matem¨¢ticos. (Inciso: ?Os acord¨¢is que hace muy poco dec¨ªamos que los modelos tipo ChatGPT eran mal¨ªsimos haciendo sumas o multiplicaciones? Es otra limitaci¨®n que ha ca¨ªdo en los ¨²ltimos meses.)
Las habilidades de cada modelo son impredecibles. No es que estos modelos se entrenen para ser mejores en ciertas tareas, sino que su capacidad la descubrimos con los tests anteriores. ?Hay que ponerles ex¨¢menes! Adem¨¢s, todav¨ªa es m¨¢s complicado: resulta que hay modelos que lo hacen regular en los tests, pero que luego muchos usuarios dicen que los prefieren en tareas reales. Su experiencia de uso es mejor. El ejemplo es Claude 3.5 Sonnet, que aunque ha sido superado en muchas pruebas, todav¨ªa es el favorito de mucha gente para montones de actividades. Yo siento que entiende mejor lo que quiero y me gusta m¨¢s como escribe. Suena a broma pero es serio: muchos especialistas creen que parte del ¨¦xito de Claude es que nos gusta su personalidad.
Los nuevos modelos ¡°razonadores¡±
La ¨²ltima remesa de modelos son lo que llamamos ¡°razonadores¡±. Con o1 se introdujo lo que podemos llamar ¡°chain-of-thought¡±, o cadena de pensamiento, que result¨® una gran mejora algor¨ªtmica. OpenAI cambi¨® la forma en que estos modelos abordan los problemas: en lugar de simplemente responder con una continuaci¨®n del texto anterior, ahora ¡°rumian¡± internamente antes de responder. Los modelos como o1, o3-mini y DeepSeek R1 hablan ¡ªo escriben¡ª para s¨ª mismos antes de contestarte.
Es un cambio peque?o, pero ha resultado f¨¦rtil para desmenuzar problemas complejos y entregar respuestas m¨¢s precisas en problemas de razonamiento, l¨®gica o matem¨¢ticas, que es lo que diferencia a la nueva generaci¨®n. Es en ese rumiar donde se producen los momentos ¡°aj¨¢¡±. Puedes leer a DeepSeek mientras ¡°piensa¡±, y ver en qu¨¦ instante se da cuenta de que ha cometido un error, que tu pregunta ten¨ªa doble sentido o que eras sarc¨¢stico. Entonces da un paso atr¨¢s y cambia sus ideas. Lo fascinante es que ese proceso de ¡°pensar despacio¡± lo hace m¨¢s inteligente, un mejor programador o un gran estudiante del MIR.
A toda velocidad
La lecci¨®n que deja o3-mini es que los avances van a toda velocidad. La innovaci¨®n de DeepSeek fue superada en una semana por OpenAI, mientras Google presentaba nuevos modelos.
A la vez, siguen llegando estudios del impacto real de modelos de la generaci¨®n anterior. Por ejemplo, en Lancet Digital Health se public¨® un ensayo con m¨¢s de 100.000 mujeres en pruebas de mamograf¨ªa que mostr¨® que el uso de GPT-4 incrementa la detecci¨®n de c¨¢ncer en un 29%. Otro estudio publicado en Nature Medicine, sobre un ensayo controlado con 92 m¨¦dicos, revel¨® que la IA bat¨ªa a los humanos en resoluci¨®n de casos cl¨ªnicos complejos.
Otras historias
? 1. ?Hasta qu¨¦ altura lleg¨® el agua en cada calle?
Esta semana publicamos un nuevo mapa interactivo para medir la magnitud brutal de las inundaciones en Valencia. Investigadores de la UPV midieron 5.000 marcas en fachadas y portales en Paiporta, Picanya, Catarroja y el resto de la Horta Sud. En algunos puntos, como la Avenida Blasco Ib¨¢?ez de Catarroja, la riada alcanz¨® hasta 2,8 metros de altura, suficiente para sumergir un coche. Un trabajo de Borja Andrino, Luis Sevillano y Montse Hidalgo; pod¨¦is verlo aqu¨ª.
? 2. ?Est¨¢ lleno de v¨ªdeos!
Me impresion¨® este video: ¡°Solo dos chavales en 2003 sin saber que acababan de crear una de las mejores canciones de la historia¡±. El video muestra a Andrew VanWyngarden y Ben Goldwasser, con 20 a?os, dando un peque?¨ªsimo concierto en el campus de la Universidad Wesleyan, cantando la canci¨®n ¡°Kids¡±. Ah¨ª todav¨ªa no lo saben, pero ese tema acabar¨ªa convirti¨¦ndose en un ¨¦xito global en 2007.
Una caracter¨ªstica del mundo actual es que casi todo queda grabado. Momentos peque?os, pr¨¢cticamente an¨®nimos, se capturan en videos o en nuestros m¨®viles. Esto permite ver el inicio de muchos fen¨®menos, cuando nadie sospecha que est¨¢n ocurriendo.
? 3. Los j¨®venes socializan menos
En Europa, la proporci¨®n de j¨®venes que no socializan ni una vez a la semana ha saltado del 10% en 2010 al 25% en 2023. Aunque se relacionaran m¨¢s por medios digitales, ambas cosas no son del todo intercambiables. Como cuenta John Burn-Murdoch en el Financial Times, los j¨®venes pasan mucho m¨¢s tiempo solos que hace 15 a?os, especialmente los chicos. Este recogimiento ha tenido efectos positivos ¡ªmenor consumo de tabaco y alcohol¡ª, pero tambi¨¦n plantea preguntas sobre su impacto en la salud mental y el bienestar de los j¨®venes. En el pasado he sido esc¨¦ptico, pero he ido cambiando de opini¨®n.
Esto es un env¨ªo de la newsletter de Kiko Llaneras, un bolet¨ªn exclusivo para los suscriptores de El Pa¨ªs. Ap¨²ntate para recibir explicaciones y datos cada semana.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.