ChatGPT como fen¨®meno natural
La estructura de los modelos grandes de lenguaje tiene muy poco misterio
Los modelos grandes de lenguaje (large language models, LLM), en los que se basan ChatGPT y su creciente lista de competidores, no solo son una creaci¨®n humana, sino tambi¨¦n un objeto de estudio. Los cient¨ªficos de la computaci¨®n los tratan como si fueran un fen¨®meno natural, pese a saber mejor que nadie en qu¨¦ consisten exactamente sus unidades l¨®gicas, sus operaciones b¨¢sicas, sus tripas mec¨¢nicas. Y tienen una raz¨®n para ello, ...
Los modelos grandes de lenguaje (large language models, LLM), en los que se basan ChatGPT y su creciente lista de competidores, no solo son una creaci¨®n humana, sino tambi¨¦n un objeto de estudio. Los cient¨ªficos de la computaci¨®n los tratan como si fueran un fen¨®meno natural, pese a saber mejor que nadie en qu¨¦ consisten exactamente sus unidades l¨®gicas, sus operaciones b¨¢sicas, sus tripas mec¨¢nicas. Y tienen una raz¨®n para ello, porque las respuestas de ChatGPT no siempre son predecibles. El comportamiento de la m¨¢quina no se puede deducir del todo a partir de primeros principios. Es un ejemplo de manual de sistema emergente, un todo que parece m¨¢s que la suma de sus partes, o que al menos no se puede inferir de ellas. Un campo de minas parad¨®jicas.
La estructura de los modelos grandes de lenguaje tiene muy poco misterio. En el fondo son redes neurales, un software ya cl¨¢sico que se inspira en las neuronas biol¨®gicas, que reciben muchos inputs por sus dendritas, los combinan y producen un solo output por el ax¨®n. La gran innovaci¨®n que nos puso a todos a hablar de inteligencia artificial hace diez a?os no fue tanto una idea rompedora como un incremento de fuerza. Si la red neural primitiva ten¨ªa tres capas de neuronas (entrada, procesamiento y salida), las nuevas empezaron a a?adir capas de procesamiento apiladas por docenas. Tambi¨¦n a imitaci¨®n del cerebro, estas capas abstraen la informaci¨®n en pasos progresivos antes de emitir una respuesta. En esto consiste el aprendizaje profundo (deep learning) que ha revolucionado el campo. Enti¨¦ndase profundo en el mero sentido de que tiene muchas capas. Es solo un nombre.
La forma en que funciona ChatGPT es decepcionante de puro simple. Los modelos grandes de lenguaje son devoradores de texto que se pueden tragar la Biblioteca Nacional, la Wikipedia y todos los peri¨®dicos del mundo antes del desayuno. Con ese empacho de material elaboran unas estad¨ªsticas muy poderosas y refinadas, aunque centradas en cuestiones ramplonas como qu¨¦ palabras tienden a aparecer juntas o dos posiciones m¨¢s all¨¢ o m¨¢s ac¨¢. La anterior versi¨®n de ChatGPT, la tres, procesaba 2.000 palabras a la vez. La nueva, GPT-4, procesa 32.000. Se trata de nuevo de un avance cuantitativo.
Pero resulta que los sistemas grandes empiezan a hacer cosas que no hacen sus precursores de menor tama?o. Los investigadores de OpenAI, la creadora de ChatGPT, han clasificado 137 ¡°aptitudes emergentes¡± en los modelos grandes de lenguaje, incluido el suyo. Un ejemplo es escribir frases inclusivas en alem¨¢n. Otro es aprobar un examen para abogados antes de licenciarse. GPT-3 fallaba en esto, pero GPT-4 tiene ¨¦xito, y la diferencia es solo de potencia computacional. Dale volumen al mando y emerge de pronto un sistema complejo.
Los humanos no aprendemos a hablar engullendo la Enciclopaedia Britannica, aunque Aldous Huxley presum¨ªa de haberla le¨ªdo entera. Es cierto que las redes neurales est¨¢n inspiradas en las neuronas biol¨®gicas, pero solo en un nivel muy elemental, que es el ¨²nico nivel en el que entendemos el funcionamiento del cerebro. Eso no quiere decir que los modelos grandes de lenguaje sean tontos, sino que su inteligencia es distinta de la nuestra. Sigamos a?adiendo capas y ver¨¢s.