El mundo de los datos necesita ingenieros
Los m¨¦todos para consultar y extraer conocimiento de los datos actuales son fundamentalmente diferentes de los an¨¢lisis estad¨ªsticos tradicionales en muestras peque?as
Hoy estamos inundados de una avalancha de datos. Es lo que popularmente se conoce como Big Data (datos a gran escala, inteligencia de datos). Es el mundo de los datos y su importancia es cada vez mayor.
El uso intensivo de los datos se ha mostrado interesante para la planificaci¨®n urbana (mediante la fusi¨®n de datos geogr¨¢ficos de alta fidelidad), el transporte inteligente (a trav¨¦s del an¨¢lisis y la visualizaci¨®n de datos vivos y detallados de la red de carreteras), vigilancia medioambiental (a trav¨¦s de redes de sensores que recopilan datos de forma ubicua), ahorro de energ¨ªa (mediante el descubrimiento de patrones de uso), predicci¨®n de riesgos financiero (a trav¨¦s del an¨¢lisis integrado de una red de contratos para encontrar dependencias entre entidades financieras), seguridad nacional (a trav¨¦s del an¨¢lisis de redes sociales y transacciones financieras de posibles terroristas), seguridad inform¨¢tica (a trav¨¦s del an¨¢lisis de la informaci¨®n registrada), y as¨ª sucesivamente. El almacenamiento y uso intensivo de los datos puede reducir el costo de la atenci¨®n m¨¦dica y mejorar su calidad, al hacer la atenci¨®n m¨¢s preventiva y personalizada y basarla en un seguimiento continuo y extenso de las actividades y s¨ªntomas de las personas, haciendo mucho m¨¢s factible la m¨¢xima de ¡®vale m¨¢s prevenir que curar¡¯.
Sin embargo, los problemas aparecen de inmediato durante la adquisici¨®n de datos, cuando el tsunami de datos nos obliga a tomar decisiones sobre qu¨¦ datos conservar y cuales descartar, c¨®mo almacenarlos de manera confiable. Los datos actuales son de tipolog¨ªas muy diversas: los tweets y blogs son fragmentos de texto d¨¦bilmente estructurados, mientras que las im¨¢genes y los v¨ªdeos est¨¢n preparados, en un primer momento, para su almacenamiento y visualizaci¨®n, pero no tanto para su b¨²squeda y an¨¢lisis. Transformar ese contenido en un formato adecuado para su posterior an¨¢lisis es un desaf¨ªo importante. El valor de los datos aumenta considerablemente cuando pueden vincularse con otros datos, por lo que la integraci¨®n de datos es otro desaf¨ªo relevante. Como la mayor¨ªa de los datos se generan hoy directamente en formato digital, tenemos la oportunidad de influir en la creaci¨®n de los datos para facilitar el enlace posterior y vincular autom¨¢ticamente los datos creados previamente.
Los m¨¦todos para consultar y extraer conocimiento de los datos actuales son fundamentalmente diferentes de los an¨¢lisis estad¨ªsticos tradicionales en muestras peque?as. Los datos, en el mundo del Big Data, son distribuidos, tienen ruido (algunos valores, no se sabe cu¨¢les, no est¨¢n bien), son din¨¢micos, heterog¨¦neos, interrelacionados y en muchos casos poco fiables. Sin embargo, incluso los datos con mucho ruido podr¨ªan ser m¨¢s valiosos que las muestras peque?as porque los patrones obtenidos suelen dominar las fluctuaciones individuales y, a menudo, revelan patrones y conocimientos ocultos m¨¢s confiables. Adem¨¢s, interconectando grandes redes de informaci¨®n heterog¨¦nea, se puede explorar la redundancia para compensar los datos que faltan, verificar casos conflictivos, validar relaciones y descubrir nuevas relaciones y modelos ocultos.
El mundo de los datos necesita un nuevo profesional: el ingeniero de datos. Este profesional ser¨¢ el encargado de desarrollar, construir, probar y mantener arquitecturas, bases de datos y sistemas de procesamiento a gran escala. Los Ingenieros de Datos tendr¨¢n que implementar nuevas formas de mejorar la fiabilidad de los datos, la eficiencia y la calidad de los mismos. Un aspecto adicional relevante que deber¨¢ tener en cuenta es la seguridad y la confidencialidad de los datos (m¨¢s a¨²n a partir de la entrada en vigor a partir del pasado mes de mayo del reglamento europeo de protecci¨®n de datos personales). Los aspectos mencionados ya est¨¢n presentes en las aplicaciones existentes.
Se perfila un Ingeniero de datos como un ingeniero inform¨¢tico, con conocimientos avanzados de Ingenier¨ªa del Software y Sistemas de Informaci¨®n, que conozca las caracter¨ªsticas de los datos, el tipo de consultas frecuentes que son interesantes para la entidad correspondiente y los aspectos en los que la entidad est¨¢ interesada en mejorar a trav¨¦s de la gesti¨®n intensiva de los datos. Deber¨¢ conocer el software y el hardware disponibles y sus posibilidades. Deber¨¢ conocer t¨¦cnicas de almacenamiento eficiente, procesamiento de datos en arquitecturas avanzadas y distribuidas y t¨¦cnicas de ingenier¨ªa del software. Deber¨¢ conocer la legislaci¨®n y las normativas europeas y nacionales referidas a la seguridad y la confidencialidad de los datos. Deber¨¢ tener habilidades de comunicaci¨®n adecuadas para interaccionar con diferentes perfiles de usuarios de los datos. Adem¨¢s, en el mundo Big Data su labor estar¨¢ complementada con la del cient¨ªfico de datos para buscar nuevos algoritmos o usar los disponibles para extraer patrones de los datos.
Miguel Toro, Arantza Illarramendi, Francisco Ruiz son catedr¨¢ticos de las Universidades de Sevilla, Pa¨ªs Vasco y Castilla La Mancha.
Cr¨®nicas del Intangible es un espacio de divulgaci¨®n sobre las ciencias de la computaci¨®n, coordinado por la sociedad acad¨¦mica SISTEDES (Sociedad de Ingenier¨ªa de Software y de Tecnolog¨ªas de Desarrollo de Software). El intangible es la parte no material de los sistemas inform¨¢ticos (es decir, elsoftware), y aqu¨ª se relatan su historia y su devenir. Los autores son profesores de las universidades espa?olas, coordinados por Ricardo Pe?a Mar¨ª (catedr¨¢tico de la Universidad Complutense de Madrid) y Macario Polo Usaola (profesor titular de la Universidad de Castilla-La Mancha).
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.