El inmenso oc¨¦ano del Internet profundo
La Red oculta alberga unas 500 veces m¨¢s informaci¨®n de la que es posible encontrar a trav¨¦s de una b¨²squeda simple - La mayor¨ªa de las bases de datos din¨¢micas han de rastrearse desde su propio sitio
M¨¢s de 60 millones de sitios web y m¨¢s de 1.000 millones de p¨¢ginas. ?ste es el oc¨¦ano de informaci¨®n en el que tienen que bucear los internautas en busca de los datos que necesitan. A veces, cuando son peticiones muy generales, suelen encontrarse f¨¢cilmente. Otras, puede convertirse en una ardua tarea. Los buscadores generalistas m¨¢s conocidos, como Google, Yahoo! y MSN, se han convertido en los gu¨ªas vitales cuando no se conoce una direcci¨®n web espec¨ªfica. Y ¨¦stos, grandes conocedores del terreno en el que se mueven, realizan su cometido... aunque dentro de sus a¨²n limitadas posibilidades.
Incluso los buscadores m¨¢s famosos que nos abruman cada poco tiempo con la presentaci¨®n de revolucionarias t¨¦cnicas de localizaci¨®n tienen su punto d¨¦bil. Este tal¨®n de Aquiles deja inaccesibles, para aquellos usuarios que ¨²nicamente utilicen estos buscadores, una inmensidad de datos que llega a superar hasta 500 veces el volumen de informaci¨®n que tienen registrado las herramientas de b¨²squeda generalistas, seg¨²n un informe de la consultora Bright Planet. Es la llamada Red profunda.
Las ara?as
Para entender esta carencia es necesario conocer el funcionamiento actual de la mayor¨ªa de los buscadores. Cuando una persona realiza una consulta, el buscador no recorre la totalidad de Internet en busca de las posibles respuestas, lo cual supondr¨ªa una capacidad de reacci¨®n bastante lenta. Lo que hace es buscar en su propia base de datos, que ha sido generada e indizada previamente. En sus labores de b¨²squeda, indizaci¨®n y catalogaci¨®n, utilizan las llamadas "ara?as" o robots inteligentes que van saltando de una p¨¢gina web a otra siguiendo los enlaces de hipertexto y registran la informaci¨®n all¨ª disponible.
El problema aparece cuando la informaci¨®n requerida se encuentra en una p¨¢gina que carece de enlaces. En este caso, la ¨²nica forma que tiene de ser registrada en un buscador es que su autor la incluya manualmente rellenando un formulario. En caso contrario, esta web resultar¨¢ invisible para todos aquellos usuarios de Internet que no conozcan la URL o direcci¨®n concreta.
Sin embargo, el que una p¨¢gina carezca de enlaces no es la ¨²nica causa que puede llevar a una web a permanecer en las profundidades, invisible a los buscadores generalistas. ?stos suelen indexar p¨¢ginas est¨¢ticas que incluyen textos simples y que est¨¢n programadas en HTML, el lenguaje de programaci¨®n m¨¢s com¨²n. ?sta es la informaci¨®n que, sin ninguna duda, un usuario encontrar¨ªa en la llamada Red superficial utilizando los buscadores m¨¢s comunes, y buena parte del resto pasa a formar parte de la Red profunda.
Actualmente, la posibilidad de buscar e indexar cierto tipo de archivos no textuales, como im¨¢genes, audio, v¨ªdeo, archivos PDF o Postscript, programas ejecutables o archivos comprimidos, se ha convertido en un reto para los motores de b¨²squeda m¨¢s generales. T¨¦cnicamente la mayor¨ªa de estos formatos pueden ser indexados, pero muchos buscadores eligen no hacerlo por razones de negocio. En primer lugar, hay mucha menos demanda de este tipo de formatos que de textos HTML y, adem¨¢s, estos formatos son m¨¢s dif¨ªciles de archivar y organizar, por lo que requieren m¨¢s recursos del servidor y sobre todo un mayor coste econ¨®mico. Sin embargo, la demanda se est¨¢ imponiendo y los grandes buscadores ya recogen entre sus opciones la posibilidad de localizar im¨¢genes, PDF e incluso v¨ªdeos. Y su lucha por robar terreno a la Red profunda contin¨²a.
La informaci¨®n que se genera din¨¢micamente tambi¨¦n forma parte de esta ¨¢rea m¨¢s profunda de Internet. La mayor¨ªa de estas p¨¢ginas est¨¢n generadas en HTML, por lo que en teor¨ªa son f¨¢cilmente indexables. El motivo m¨¢s frecuente alegado por los buscadores para no hacerlo es que se han dado bastantes casos de rastreadores que se han visto atrapados en las llamadas trampas de ara?a, un sitio con miles o millones de p¨¢ginas dise?adas s¨®lo para bloquear los motores de b¨²squeda.
Tambi¨¦n los datos que se generan en tiempo real, como pueden ser valores de Bolsa, informaci¨®n del tiempo, horarios de trenes, etc¨¦tera, suelen formar parte de la Red profunda. Aunque ¨¦stos, con un motivo bien fundamentado: su inmenso volumen y, principalmente, la gran rapidez con la que var¨ªa dicha informaci¨®n hacen bastante inservible para el usuario que un buscador generalista indexe un contenido tan fugaz. Por lo tanto, la mayor¨ªa eligen no hacerlo, aunque t¨¦cnicamente sea posible.
Bases de datos
Toda esta informaci¨®n oculta hasta ahora citada es tan s¨®lo una m¨ªnima parte de la Red profunda. La mayor¨ªa est¨¢ compuesta por las bases de datos disponibles a trav¨¦s de Internet. Normalmente ellas mismas tienen sus propias herramientas de b¨²squeda personalizadas, que s¨®lo presentan dinamismo en respuesta a una pregunta directa, cosa que hasta el momento s¨®lo es capaz de hacer el propio usuario y en ning¨²n caso los programas ara?a que usan los buscadores en sus tareas de catalogaci¨®n. Si el usuario pretende realizar una b¨²squeda en ellas, debe usar las propias herramientas que la base de datos ofrece . El inconveniente est¨¢ en que es necesario encontrar la base de datos en primer lugar, tarea en la que a veces los motores de b¨²squeda generales ayudan y otras no.
Actualmente hay en Internet de 200.000 a 500.000 bases de datos de acceso gratuito que contienen informaci¨®n de alta calidad para el usuario, as¨ª como otro gran n¨²mero que requieren alg¨²n pago por sus contenidos. Estas inmensas fuentes de informaci¨®n, que muchas veces el usuario pasa por alto al no poder acceder con sus herramientas de b¨²squeda habituales, normalmente est¨¢n organizadas por temas y catalogadas manualmente con un rigor de calidad, actualidad y fiabilidad del que suelen carecer muchos de los documentos que se encuentran sueltos en el ciberespacio. La mayor base de datos existente es la de la Biblioteca del Congreso de EE UU (www.loc.gov ), que contiene m¨¢s de 26 millones de referencias.
La Red profunda es, por tanto, un recurso que deben tener muy en cuenta los internautas que buscan en Internet algo m¨¢s que generalidades. El hecho de que Google o Yahoo! no encuentren una consulta no tiene por qu¨¦ significar que la respuesta no est¨¦ en Internet. Tan s¨®lo hay que bucear algo m¨¢s para encontrar este mar de informaci¨®n muchas veces desconocido por los usuarios que se limitan al uso de los buscadores m¨¢s comunes.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.