Pushmeet Kohli, Google DeepMind: ¡°Nuestro pr¨®ximo reto es entender la sem¨¢ntica del ADN¡±
El director del laboratorio cient¨ªfico de la multinacional se?ala la gen¨®mica, la fusi¨®n nuclear y el desarrollo de nuevos materiales como las ¨¢reas de futuro para su equipo
La inteligencia artificial (IA) es ya una herramienta fundamental para el avance de la ciencia. ¡°Como inform¨¢tico, creo que el ser humano es el programa m¨¢s complejo jam¨¢s escrito. Es incre¨ªble poder acceder a una parte de ese c¨®digo¡±, dice Pushmeet Kohli, vicepresidente de Ciencia de Google DeepMind. Sabe de lo que habla. Su jefe, Demis Hassabis, y su compa?ero John Jumper han ganado este a?o el Premio Nobel de Qu¨ªmica por su aportaci¨®n a ¡°la predicci¨®n de la estructura de las prote¨ªnas mediante el uso de inteligencia artificial¡±. El galard¨®n reconoce la utilidad de AlphaFold2, la herramienta que ha logrado describir la forma tridimensional de 200 millones de prote¨ªnas, una informaci¨®n clave para entender el funcionamiento de los organismos.
Kohli supervis¨® el equipo que escribi¨® el c¨®digo de AlphaFold2. Dirige a unos 150 investigadores que conforman la pata m¨¢s puramente cient¨ªfica de DeepMind, la divisi¨®n de la empresa de Google que ¡ªseg¨²n aseguran¡ª vive al margen de las necesidades comerciales de su matriz y que no participa en la carrera de la IA generativa. Este experto en aprendizaje autom¨¢tico y visi¨®n computacional de 43 a?os se crio a los pies del Himalaya, en Dehradun, India, y se mud¨® a Reino Unido para completar sus estudios. Tras doctorarse en la Universidad de Cambridge, fue contratado por Microsoft, donde lleg¨® a ser director de investigaci¨®n. En 2017, Hassabis le pidi¨® que se encargara de los proyectos cient¨ªficos de DeepMind.
Para Kohli, la IA ha abierto un nuevo horizonte. ¡°En cualquier ¨¢rea de la ciencia en la que te fijes, la IA est¨¢ transformando lo que se puede hacer¡±, dice a EL PA?S tras intervenir en el foro AI for Science, organizado en Londres por su empresa y la Royal Society.
Pregunta. ?Hay alguna disciplina cient¨ªfica que no pueda verse beneficiada por el impulso de la IA?
Respuesta. Si puedes formular la pregunta cient¨ªfica en la que trabajas como un problema de razonamiento o como un problema de reconocimiento de patrones, en el que haya que extraer ciertas conclusiones de los datos, entonces la IA tiene mucho que aportar. Un error com¨²n es olvidar que tienes que ser capaz de capturar los datos de los objetos f¨ªsicos que est¨¢s estudiando. Por ejemplo, no tiene sentido hacer modelos que traten de predecir las emociones, porque los datos con los que lo entrenar¨¢s son reacciones subjetivas de humanos que han visto tal o cual expresi¨®n facial o lenguaje corporal en contextos determinados. Es muy importante para nosotros conocer las limitaciones de los modelos.
P. ?En qu¨¦ tipo de proyectos est¨¢n interesados?
R. Tenemos mucho trabajo en torno a la biolog¨ªa. La biolog¨ªa estructural la hemos tocado con AlphaFold, pero tambi¨¦n nos interesa mucho la gen¨®mica: queremos entender la sem¨¢ntica del ADN, saber qu¨¦ pasa con los problemas de las variantes de significado desconocido. Ese es nuestro pr¨®ximo reto. Si hay una mutaci¨®n en el genoma, ?qu¨¦ efecto concreto tiene? Tambi¨¦n estamos trabajando en nuevos materiales, creemos que hay mucho potencial para avanzar ah¨ª. Otras ¨¢reas importantes para nosotros son la fusi¨®n nuclear, el clima y la ciencia b¨¢sica relacionada con las matem¨¢ticas y la inform¨¢tica.
¡°Congratulations to John, the #AlphaFold team, and everyone at DeepMind & Google that supported us along the way - it¡¯s an amazing award for all of us! It¡¯s such an honour and privilege to work with all of you to advance the frontiers of science.¡± - @DemisHassabis
— Google DeepMind (@GoogleDeepMind) October 10, 2024
Find out more¡ pic.twitter.com/XAr86gFEf3
P. ?Qu¨¦ objetivos se marcan en las ¨¢reas de fusi¨®n y nuevos materiales?
R. En fusi¨®n nuclear, el objetivo es maximizar el tiempo que podemos mantener el plasma estable. Cuando se enciende el reactor de fusi¨®n, nuestro sistema de IA controla el campo magn¨¦tico, que se tiene que ir modulando sutilmente sin causar disrupciones que desestabilicen el plasma y manteniendo la temperatura y fricci¨®n adecuadas. En cuanto al desarrollo de materiales, el objetivo es desarrollar nuevos materiales que, cuando se prueben en laboratorio, veamos que son sintetizables y estables.
P. Dice que, en el ¨¢rea de gen¨®mica, el objetivo es entender la sem¨¢ntica del ADN. ?En qu¨¦ punto est¨¢n de ese proceso?
R. El proyecto del genoma humano ley¨® los 3.000 millones de caracteres del c¨®digo que nos hace como somos. Resulta que todas esas letras tienen un significado, un prop¨®sito, que actualmente no entendemos del todo. Hay dos componentes del genoma: la parte codificante y la no codificante. La primera habla de cu¨¢les son las prote¨ªnas que se expresar¨¢n; la segunda, sobre los mecanismos de regulaci¨®n que dicen cu¨¢nta prote¨ªna deber¨ªa expresarse, etc¨¦tera. Pues para la parte codificante ya estamos haciendo predicciones con un alto nivel de fiabilidad. Creemos que estamos cerca de poder decir si ciertas mutaciones van a ser o no problem¨¢ticas. Pero saber c¨®mo y por qu¨¦ van a ser problem¨¢ticas es todav¨ªa un ¨¢rea abierta de investigaci¨®n. Y lo mismo pasa con la parte no codificante: queremos saber c¨®mo sucede la expresi¨®n de las prote¨ªnas. No hay horizonte para acabar el proyecto ahora mismo. Pero, cuando lo hagamos, realmente tendremos un entendimiento del lenguaje de la vida. Y entonces podremos empezar a pensar c¨®mo editar el genoma para conseguir ciertos objetivos.
P. ?Hasta qu¨¦ punto la carrera por la IA generativa, que en el caso de Google capitaliza Gemini, ha distra¨ªdo otras l¨ªneas de investigaci¨®n de la empresa?
R. La IA generativa es un concepto muy poderoso, tambi¨¦n para la ciencia, porque ha desbloqueado algo nuevo. Hasta ahora, gran parte de nuestro esfuerzo se centraba en aprovechar datos que estaban estructurados, en el sentido de que ten¨ªas una secuencia y una predicci¨®n, pod¨ªas ver los resultados en forma tabular. Ahora, muchos avances cient¨ªficos est¨¢n contenidos en art¨ªculos en forma de texto, as¨ª que ya no ¨¦ramos capaces de aplicarle IA para aprovechar esa especie de intuici¨®n que aporta. Los grandes modelos de lenguaje nos han permitido extraer conocimiento de esa literatura cient¨ªfica. As¨ª que, en cierto sentido, la IA generativa est¨¢ ayudando en la ciencia porque abre un nuevo campo.
P. La IA generativa se apoya en bases de datos gigantes, que ya han agotado todo internet. Se empieza a decir que los pr¨®ximos modelos se entrenar¨¢n con datos sint¨¦ticos, los creados por m¨¢quinas. ?C¨®mo lo ve usted?
R. Creo que cuanto mayor es un modelo, m¨¢s expresivo es, mayor nivel de libertad tiene. Con m¨¢s datos, podemos tener m¨¢s supervisi¨®n y control sobre lo que el sistema va a aprender. Pero esta no es una cuesti¨®n de tama?o, lo que realmente importa es la diversidad de los datos, que aporten al modelo diferentes tipos de problemas de los que extraer intuiciones.
P. ?Eso lo consiguen los datos sint¨¦ticos?
R. No es algo que funcione en todos los casos. Normalmente, usamos datos que han sido obtenidos realizando experimentos. En el caso de AlphaFold, se entren¨® en una base de datos con 150.000 prote¨ªnas y, tras el entrenamiento, fuimos capaces de predecir la estructura de m¨¢s de 200 millones. En algunos casos, usamos simulaciones. Eso hacemos en nuestros trabajos sobre fusi¨®n nuclear: intentamos ver posibles formas en que se pueda comportar el plasma para ver c¨®mo controlarlo, con la idea de que, cuando se aplique al mundo real en un reactor nuclear, el sistema sea capaz de generalizar. Y, finalmente, est¨¢ la idea de los datos sint¨¦ticos, generados por IA. En algunos casos, puedes hacer que el modelo produzca ciertos tipos de datos que no estaban presentes en la base de datos de entrenamiento. Por ejemplo, imaginemos que en la base de datos original solo tenemos im¨¢genes de sillas verdes, pero en una base de datos sint¨¦tica, como conocemos los conceptos de azul o rojo, generamos sillas de muchos colores distintos. As¨ª que el modelo final ser¨¢ capaz de entender que las sillas pueden ser de varios colores y detectarlas.
P. ?Qu¨¦ tipo de problemas pueden resolverse con este tipo de modelos?
R. Esto puede ser aplicado a casi cualquier problema que podamos imaginar, pero puede que no funcione con todos. Todav¨ªa no tenemos una teor¨ªa para entender cu¨¢ndo son ¨²tiles los datos sint¨¦ticos. Pero en algunos casos s¨ª hemos comprobado que, usando esta t¨¦cnica, obtenemos una mejor¨ªa en el rendimiento del sistema.
P. ?Qu¨¦ proporci¨®n de datos sint¨¦ticos usan?
R. Estamos invirtiendo en esos tres tipos de fuente de datos. Especialmente en simulaci¨®n, que es la fuente m¨¢s efectiva y que puede ser controlada. Estamos usando datos sint¨¦ticos, pero con cautela: es muy importante que el modelo original sea bueno, porque si no el resultado no sirve.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.