¡°El machine learning es estad¨ªstica glorificada¡±
John Alexis Guerra, profesor de la Universidad de los Andes, desmitifica las tecnolog¨ªas del momento y defiende una mejor selecci¨®n de las herramientas necesarias para cada caso
John Alexis Guerra lleva un rato describiendo una tabla de ocho columnas y doce filas con cuatro series num¨¦ricas. Los n¨²meros var¨ªan, salta a la vista, pero no parece nada del otro mundo. De hecho, todas las series tienen la misma media.
Despu¨¦s de un rato m¨¢s comentando las cifras, el profesor de la Universidad de Los Andes cambia la diapositiva.
"Un, dos, tres", cuenta, antes de volver a la tabla anterior. "?Qu¨¦ vieron?". Todos los asistentes al Singularity University Summit de Colombia vieron cuatro gr¨¢ficos distintos, cada uno de su padre y de su madre, pero eso s¨ª, todos con la misma media y marcando la misma tendencia, supuestamente creciente.
El profesor ha dejado claro dos cosas: la estad¨ªstica b¨¢sica no siempre es el camino m¨¢s corto ni el m¨¢s revelador, y la visualizaci¨®n de un conjunto de datos, por sencillos que sean, puede demostrarlo en tres segundos. "Yo estuve hablando dos minutos aqu¨ª y no fuimos capaces de coger nada. Ni con estad¨ªstica, ni mirando directamente los datos. Ahora imag¨ªnense en cualquiera de sus empresas, donde tienen millones de registros. Y si usted va y alimenta eso en una vaina de machine learning, que es estad¨ªstica glorificada, probablemente va a llegar a un resultado similar. F¨ªjense en el poder de la visualizaci¨®n", sentencia.
- Ese gran desconocido
Pero esta no es la ¨²nica revelaci¨®n que quiere compartir Guerra. El profesor de inform¨¢tica de sistemas se ha propuesto redefinir el concepto de big data. ¡°Probablemente ustedes hayan pagado por conferencias y se hayan capacitado. Y probablemente, lo que les habr¨¢n hablado de las v¡¯s: volumen, variable, velocidad, vla, vla, vla¡ Y depende de la plata que hayan pagado por el curso, habr¨¢ cinco y seis y siete v¡¯s¡±, asegura, hastiado de la ambig¨¹edad que rodea a esta pareja de palabras. ¡°Uno sale de esa vaina pensando que eso va a cambiar el mundo, pero sin saber qu¨¦ rayos es¡±.
Si sus datos caben en un computador, es sencillo: no es big data
Guerra apuesta por olvidarse de iniciales e inspiradores potenciales y utilizar criterios b¨¢sicos pero irrefutables para saber qu¨¦ es el big data y cuando es necesario. ¡°La cuesti¨®n es muy sencilla. ?Puede usted poner esa vaina en un computador? ?Le cabe? Si sus datos caben en un computador, es sencillo: no es big data¡±.
- Big data para seres terrenales
Para profundizar en su propuesta, el docente tira de colecciones de fotos. ¡°Cu¨¢ntas les caben a ustedes en el celular. ?Mil? Unos diez gigas. ?Eso es big data? Pues no. Porque pueden manejarlo desde ah¨ª¡±, insiste. Si la colecci¨®n se multiplica por cincuenta, la cosa sigue igual.
¡°Yo soy uno de esos fastidiosos que toma fotos por cualquier pendejada¡±, reconoce. Y a¨²n as¨ª, las 250.000 fotos que ha sacado durante los ¨²ltimos quince a?os, caben en un disco duro externo de 500 gigas. ¡°Tampoco es big data¡±, repite.
¡°Otra cosa es que los datos sean una vaina gigante que sencillamente no cabe. Ese es el problema y la raz¨®n por la cual usted deber¨ªa utilizar big data¡±, contin¨²a. No hace falta abandonar el ejemplo de las fotograf¨ªas. ?Qu¨¦ pasa si no sentamos delante de la base de datos de im¨¢genes que acumulan plataformas como Flickr? ¡°La ¨²ltima vez que estuve trabajando con ellos, ten¨ªan 80 billones de fotos. Eso s¨ª es big data, porque toca distribuirlo en cientos de computadores, asignar a cada uno una tarea espec¨ªfica y luego recolectar los resultados¡±.
Pongamos que queremos identificar todas las im¨¢genes azules. Cada ordenador de los que componen esa red, explica Guerra, se considera un mapper o mapeador. Su papel es realizar el mismo procedimiento sobre la parte de la base de datos de fotograf¨ªas que se le ha asignado y generar un resultado que posterior mente pasa a lo que se conoce como reductor o reducer. En este punto, todos esos datos se agregan en el resultado total. ¡°Y ya todos tienen la certificaci¨®n de lo que es el algoritmo de map reduce, que es la base de esto¡±, celebra.
Sin embargo, es solo el principio del problema. Cuando el big data se hace necesario, tambi¨¦n es preciso determinar cu¨¢ntos computadores exigir¨¢ el c¨¢lculo, facilitar espacio y efectividad suficiente, conectividad entre los equipos¡ ¡°Solamente esa log¨ªstica lleva un mont¨®n de algoritmos¡±, se?ala el profesor.
- El tama?o no importa
Su propuesta es una mejor selecci¨®n de herramientas. No vamos a usar big data para diez gigas de fotos por el mismo motivo que no untamos mantequilla con un cuchillo jamonero. ¡°No importa que el conjunto de datos sea chiquito. Lo que importa es qu¨¦ informaci¨®n va a sacar usted de ah¨ª¡±, asegura.
?Y c¨®mo se hace eso sin un ej¨¦rcito de ordenadores? ¡°Si uno coge un cient¨ªfico de la vieja guardia, le dir¨¢ que utilice m¨¦todos estad¨ªsticos. Si de pronto es m¨¢s h¨ªpster, le dir¨¢ que utilice machine learning. Y si es un tipo como yo, de dir¨¢ que hay otras cosas, como vision analytics o visualizaci¨®n de datos¡±.
El plan de Guerra es aplicar el m¨¦todo que emple¨® en su tabla de ocho columnas a todo lo que quepa en un ordenador, y hacerlo con interfaces visuales que permitan al usuario interactuar directamente con los datos. Si la alternativa no convence, siempre se puede dar un paso atr¨¢s. ¡°Una opci¨®n es aprender a programar. Otra es contratar a un analista. Si es uno de estos h¨ªpsters, le va a traer una caja negra con su algoritmo de moda. Ni si quiera van a entender qu¨¦ es lo que est¨¢ ah¨ª¡±.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.