C¨®mo adivinar la obesidad mundial con cuatro alimentos
Investigadores de la Universidad de Chile y Johns Hopkins (EE UU) demuestran que es posible predecir la prevalencia de la obesidad aplicando t¨¦cnicas de aprendizaje autom¨¢tico a los datos de compra de alimentos de cada pa¨ªs
Puedo predecir la prevalencia de obesidad bas¨¢ndome s¨®lamente en la venta de alimentos?". Esta es la pregunta que se hizo un equipo investigadores de la Universidad de Chile y Johns Hopkins (EE UU), antes de comenzar su ¨²ltimo estudio. "La respuesta es s¨ª", sentencia. Y no s¨®lo es posible: adem¨¢s, el m¨¦todo desarrollado por Dunstan y su equipo tambi¨¦n es adaptable a una larga lista de pa¨ªses.
Estas profec¨ªas no son moco de pavo. Por un lado, ayudan a establecer una relaci¨®n directa entre los alimentos que causan m¨¢s estragos al caer en la cesta de la compra. Por otro, hacen posible determinar la prevalencia de la obesidad en los lapsos de tiempo que separan una encuesta de salud de la siguiente y permiten hacer proyecciones sin esperar a que estas mismas encuestas se completen. Y todo esto en un planeta que ha pasado de tener 857 millones de habitantes con sobrepeso en 1980 a alcanzar los 2.100 millones solo tres d¨¦cadas m¨¢s tarde.
?C¨®mo se pone a funcionar esta bola de cristal? Con los datos de compra de 48 categor¨ªas de comidas y bebidas para 79 pa¨ªses y un poquito de machine learning. "Lo que hicimos fue probar varios algoritmos en este ejercicio de tratar de predecir la proporci¨®n de la poblaci¨®n obesa. Y lo que encontramos fue que en 47 de esos pa¨ªses era posible hacerlo con menos del 10% de error".
En las compras de comida que estudi¨® Dunstan, extra¨ªdas de Euromonitor, cabe de todo: chocolate, yogures, huevos, carne, zumo, caf¨¦, cereales... Pero no estamos hablando del mar de datos al que nos tienen acostumbrados los tiempos que corren. "No es una base de datos tan grande. No es big data para nada. Es chiquitita. Pero a¨²n as¨ª, uno puede estrujarla", se?ala la investigadora.
- Algoritmos minimalistas
De hecho, uno de los algoritmos entrenados para esta predicci¨®n ofrec¨ªa tambi¨¦n, la lista de las variables m¨¢s decisivas para la prevalencia de la obesidad. Seg¨²n este peque?o r¨¢nking, boller¨ªa, harinas, queso y bebidas carbonatadas son las cartas m¨¢s importantes del tarot del sobrepeso. Cuando se aplica el algoritmo sobre los datos de compra de estas tres, se consigue incluso reducir ligeramente el margen de error.
Resulta que en machine learning menos tambi¨¦n es m¨¢s. "Esto se llama reducci¨®n de dimensionalidad o reducci¨®n de variables. La idea es 'dado todo esto, cu¨¢les son las variables que mejor explican la variabiliad de mis datos'. Se trata de reducir", explica Dunstan. La utilidad de este ejercicio de s¨ªntesis va m¨¢s all¨¢ de ahorrarnos acabar matando moscas a ca?onazos: si sabemos qu¨¦ cuestiones de una encuesta son las m¨¢s determinantes, podemos acortar los cuestionarios y paliar el contundente efecto repelente de cien preguntas juntas.
Adem¨¢s, en ese listado de variables principales queda retratadas las dietas de los pa¨ªses. "Ah¨ª uno ve que Alemania y Holanda comparten un mont¨®n. Todos los pa¨ªses de Europa del este son como una gran nube, Espa?a es muy pr¨®xima a Portugal... Uno nota la influencia hist¨®rica y geogr¨¢fica delos pa¨ªses", precisa Dunstan.
- Buenas pr¨¢cticas
En toda la metodolog¨ªa investigaci¨®n de Dunstan y sus compa?eros son una constante los esfuerzos para asegurar la obtenci¨®n de resultados replicables y f¨¢cilmente reutilizables. Por un lado, los tres algoritmos empleados aseguran que los resultados obtenidos no son un espejismo. Por otro, todo el c¨®digo desarrollado para hacer el entrenamiento y las predicciones est¨¢ publicado. "Hab¨ªa ganas de traer m¨¢s machine learning a la salud p¨²blica, donde no est¨¢ tan extendido, y tambi¨¦n de entregar estas herramientas a todos los investigadores que quisieran empezar a hacer uso de ¨¦l", explica Dunstan.
El caso de esta investigaci¨®n ejemplifica los cambios que est¨¢ viviendo la producci¨®n cient¨ªfica en pleno boom publicaciones relacionadas con aprendizaje autom¨¢tico e inteligencia artificial y de las consecuentes preocupaciones sobre la dificultad para verificar los resultados de estas investigaciones. "Cada vez est¨¢ m¨¢s regulado. Cuando yo part¨ª de Estados Unidos, recuerdo que el grupo hab¨ªa publicado un art¨ªculo donde usaba un m¨¦todo, un algoritmo. El trabajo era menos riguroso".
Ahora la tarea de publicar en cabeceras establecidas exige demostrar que se est¨¢ haciendo el mejor estudio posible. "Cuando nosotros enviamos este paper a la revista, ellos mismos nos empezaron a pedir m¨¢s cosas", explica Dunstan. "Ya es cada vez m¨¢s dif¨ªcil publicar si no cumples ciertas reglas de buenas pr¨¢cticas en el machine learning".
En la experiencia de su actividad como investigadora, que ahora mismo reparte entre las facultad de Ingenier¨ªa y Medicina de la Universidad de Chile, Dunstan detecta cierta desigualdad en la materia. "En ¨¢reas como la ingenier¨ªa, las matem¨¢ticas, la f¨ªsica, hace tiempo que ya trabajan as¨ª. Pero en otras, como ciencias sociales o medicina, esto es un poco m¨¢s nuevo. Creo que estamos en ese camino. Cada vez hay que hacerlo mejor".
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.