"Con las estad¨ªsticas siempre hay formas de hacer trampas"
Cuando el profesor de estad¨ªstica y bioestad¨ªstica Trevor Hastie (Sur¨¢frica, 1953) imparte una conferencia, entre el p¨²blico pueden estar sentados matem¨¢ticos, m¨¦dicos, financieros e incluso aquellos que propagan por Internet el llamado spam o correo basura. "Vienen para aprender las ¨²ltimas t¨¦cnicas desarrolladas para detectarlos", cuenta el director del Departamento de Estad¨ªstica de la Universidad de Stanford (EE UU). Este investigador, que estuvo la semana pasada en Madrid invitado por la Fundaci¨®n BBVA, centra su trabajo en el campo del data mining, es decir, modelos estad¨ªsticos intensamente computerizados que se ocupan de enormes cantidades de informaci¨®n.
Pregunta. ?Qu¨¦ hace la estad¨ªstica en campos tan diversos?
"?Qui¨¦n acude a mis conferencias? Los que crean el 'spam', para aprender"
"El mayor generador de datos hoy en d¨ªa es Internet"
Respuesta. La mayor parte de las cosas que medimos en la vida comportan una incertidumbre, son fuentes aleatorias de error. Por eso solemos realizar m¨¢s de una medici¨®n. En el pasado exist¨ªan limitaciones, pero con los adelantos de la tecnolog¨ªa podemos llevar a cabo muchas m¨¢s mediciones. Esto hace que cada vez haya m¨¢s datos, pero tambi¨¦n que se necesiten herramientas para sacar conclusiones. Ah¨ª es donde la estad¨ªstica desempe?a su papel.
P. ?C¨®mo de grandes son los conjuntos de datos con los que trabaja?
R. Hace 30 o 40 a?os, cuando habl¨¢bamos de muchos datos nos refer¨ªamos a cientos de observaciones y decenas de variables. Ahora tenemos experimentos de f¨ªsica con conjuntos de millones de valores o an¨¢lisis financieros con decenas de millones de observaciones.
P. ?En qu¨¦ casos trabaja con m¨¢s informaci¨®n?
R. El mayor generador de datos hoy en d¨ªa es Internet. El n¨²mero de usuarios crece cada d¨ªa y ya son cientos de millones en el mundo. Esto hace que la cantidad de informaci¨®n crezca de forma exponencial, y que tengamos un n¨²mero infinito de datos. Probablemente, la mejor forma de hacer frente a este enorme volumen de informaci¨®n sea algo como el buscador Google, por los algoritmos que ha desarrollado.
P. Una de las ¨¢reas de aplicaci¨®n es la medicina. ?Hasta qu¨¦ punto son eficaces las estad¨ªsticas en este campo?
R. Veamos un ejemplo. Yo he trabajado durante cinco a?os en la Universidad de Stanford con especialistas en c¨¢ncer de mama. Para realizar los diagn¨®sticos, los m¨¦dicos utilizan generalmente factores pron¨®stico, mediciones como el tama?o del tumor, el grado del tumor, si los ganglios linf¨¢ticos est¨¢n implicados... Los onc¨®logos suelen ser muy conservadores y tratan con quimioterapia a la mayor parte de las pacientes. Ahora podemos efectuar mediciones a partir de la gen¨®mica, que abarcan cientos de genes y que permiten mejorar la capacidad de pron¨®stico de los onc¨®logos en un 30%. ?Qu¨¦ significa esto? Por medio de lo que se conoce como firma gen¨¦tica se consigue que haya un 30% de estas mujeres que ya no tengan que someterse a quimioterapia. Podemos perfilar mucho mejor qui¨¦n debe recibir qu¨¦ tipo de tratamiento.
P. ?Sus investigaciones tambi¨¦n se utilizan para detectar el correo basura?
R. S¨ª, se puede predecir si un correo electr¨®nico es spam bas¨¢ndose en determinadas palabras del mensaje, como, por ejemplo, "t¨²", unos signos de admiraci¨®n o el s¨ªmbolo del d¨®lar. Hoy los filtros funcionan a la medida del usuario. Hay algoritmos que, tras un periodo de aprendizaje, pueden predecir qu¨¦ ser¨¢ considerado correo basura. Tambi¨¦n debo decir que la industria del spam ha crecido mucho. Ahora imparto conferencias sobre algoritmos para detecci¨®n del correo basura. ?Y qui¨¦n cree que acude a mis conferencias? Los que crean el spam, para aprender las ¨²ltimas t¨¦cnicas desarrolladas para detectarlos. As¨ª, tres semanas despu¨¦s aparecen nuevos sistemas de correo basura.
P. Las estad¨ªsticas se emplean igualmente para la publicidad de la Red. ?No es as¨ª?
R. Las estad¨ªsticas son fundamentales en Internet. Hoy en d¨ªa hay mucha actividad en torno a la publicidad. Si abres una p¨¢gina te sale un anuncio y lo que se intenta es que esa publicidad est¨¦ hecha a medida de cada usuario, seg¨²n los sitios que ha visitado con anterioridad. Al principio no parece agradable, pues es como si te vigilaran. Pero en el fondo, si yo tuviese que hacer publicidad en la Red... pienso que tiene un sentido.
P. ?Todo esto aumenta mucho el poder de los estad¨ªsticos?
R. Los estad¨ªsticos han ido adquiriendo m¨¢s poder. En la Universidad de Stanford, cuantos m¨¢s estad¨ªsticos formamos, m¨¢s nos pide el mercado. Para gen¨®mica, bioinform¨¢tica, farmac¨¦uticas, financieras... Todos los fondos de cobertura (los hedge funds) exitosos cuentan con un equipo de estad¨ªsticos. Y no digo que sea un uso muy noble de la estad¨ªstica, pero es as¨ª.
P. ?Nos podemos fiar de las estad¨ªsticas?
R. Hay que ser cautos con los resultados de las estad¨ªsticas, pues con las estad¨ªsticas siempre hay formas de hacer trampas. Ahora se puede ver con facilidad si esto ocurre, pero no deja de existir la amenaza, especialmente en las ciencias m¨¦dicas. Hay investigadores que sobreinterpretan los resultados para poder publicar sus trabajos. A medida que crece el uso de las estad¨ªsticas en las ciencias m¨¦dicas y biol¨®gicas, aumenta tambi¨¦n su abuso.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.