lunes, 26 de octubre de 2015

Web Superficial y la Web Profunda


Deep Web.svg
«Deep Web» por Rezonansowy - Trabajo propio Este archivo se derivó de:  F16 drawing.svg. Disponible bajo la licencia CC BY-SA 3.0 vía Wikimedia Commons.

La web que conocemos es solo una pequeña parte de la web a la que podemos acceder. La web superficial o visible, es la que puede ser accedida por los motores de brusquedad (google, yahoo, bing, etc). Estos crean índices de las páginas  web y las mismas puedes ser abiertas a través de sus enlaces. En cambio la otra porción se denomina web profunda o invisible.

Los siguientes son algunos de los motivos por los que los buscadores son incapaces de indexar la internet profunda:
  • Páginas y sitios web protegidos con contraseñas o códigos establecidos.
  • Páginas que el buscador decidió no indexar: esto se da generalmente porque la demanda para el archivo que se decidió no indexar es poca en comparación con los archivos de texto HTML; estos archivos generalmente también son más «difíciles» de indexar y requieren más recursos.3
  • Sitios que, dentro de su código, tienen archivos que le impiden al buscador indexarlo.
  • Documentos en formatos no indexables.
  • Según la tecnología usada por el sitio: por ejemplo los sitios que usan bases de datos. Para estos casos los buscadores pueden llegar a la interfaz creada para acceder a dichas bases de datos, como por ejemplo, catálogos de librerías o agencias de gobierno.3
  • Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos, como por ejemplo la base de datos de la RAE.4
  • Sitios que tienen una mezcla de medios o archivos que no son fáciles de clasificar como visible o invisible (Web opaca).
  • La información es efímera o no suficientemente valiosa para indexar. Es posible indexar está información pero como cambia con mucha frecuencia y su valor es de tiempo limitado no hay motivo para indexarla.3
  • Páginas que contienen mayormente imágenes, audio o video con poco o nada de texto.
  • Los archivos en formatos PostScript, Flash, Shockwave, ejecutables (.exe), archivos comprimidos (.zip,.rar, etc).
  • Información creada en páginas dinámicas después de llenar un formulario, la información detrás de los formularios es invisible.
  • Documentos dinámicos, son creados por un script que selecciona datos de diversas opciones para generar una página personalizada. Este tipo de documentos, aunque sí se pueden indexar, no están en los motores de búsqueda porque en ocasiones puede haber varias páginas iguales, pero con pequeños cambios, y las arañas web quedan atrapadas en ellos.3
  • Es un sitio aislado, es decir, no hay ligas que lo vinculen con otros sitios y viceversa.5
  • Son subdirectorios o bases de datos restringidas.
Fuente: https://es.wikipedia.org/wiki/Internet_profunda

 

Uno de los datos más curiosos respecto a la Internet invisible es que los contenidos de la Biblioteca del Congreso de los Estados Unidos, la más grande del mundo, así como el Diccionario de la Real Academia de la Lengua Española (RAE), no son indexables, lo que significa que son únicamente accesibles desde los buscadores de cada uno de estos portales, convirtiéndolos así en parte de la Internet profunda, aun cuando el propósito de ambos sitios es promover el acceso a la información que alojan.
En relación con la Sociedad del Conocimiento, lo fundamental de la web invisible es su potencial de abrir las puertas a información de alta calidad y especialidad temática. Así, las bases de datos de las grandes universidades y centros de investigación, que reúnen tesis, artículos analíticos, publicaciones de libre acceso, planos, gráficos y similares, existen y están abiertas para que sean consultadas y aprovechadas de acuerdo a sus términos de uso.
En paralelo, se ha relacionado la web profunda con la piratería y la ilegalidad, especialmente porque en ella se alojan contenidos cuya fuente no es fácilmente rastreable, y solo es accesible a través de sistemas tipo TOR (The Onion Router – El router cebolla, por sus múltiples capas), que ocultan la identidad de los visitantes. Es verdad que el Internet invisible también sirve con propósitos poco asociados a la gestión del conocimiento, pero como todo en la red, queda a discreción de los usuarios saber qué contenidos aprovechar.
Aunque su nombre resulte intimidante para algunos, la verdad es que la Internet invisible ya no está tan oculta como antes y gracias a los metabuscadores (buscadores de buscadores) es posible rastrear fuentes de bases de datos, que permiten acceder a la información alojada en la web profunda, como estos que reseña Luis Castro en ‘¿Qué es Deep web?’:
• Scirus, usado para búsquedas de información científica.
• Infomine, búsquedas de material escolar de todo tipo.
• FreeLunch, búsquedas de datos económicos.
• CompletePlanet, búsquedas de diversos temas.
• Archive, metabuscador para rastrear temas específicos.
• Search Engine Guide, metabuscador que permite encontrar un buscador o base de datos relacionada con el tema de interés.
Fuente: http://colombiadigital.net/actualidad/articulos-informativos/item/6296-que-es-internet-invisible-o-internet-profunda.html



Como podemos ver, la porción que conocemos de la web es muy pequeña y la información es limitada y en ocasiones inexacta. Los contenidos que son fácilmente indexados, no son la mayoría. Por ellos la web superficial es apenas una porción muy limitada. Por ellos la web profunda nos ofrece más posibilidades. Pero también es un lugar en el que podemos encontrar muchos peligros, actividades ilegales o que por se tan explicitas podrían afectar a muchas personas. Por ello antes de adentrarnos a ellas debemos hacerlo cuidado, nuestras información personal y usando las herramientas adecuadas que nos permitan acceder a eso tesoros ocultos, sin que nos encontremos, con los tentáculos de los calamares gigantes que nos hagan pasar un mal rato.

0 comentarios:

Publicar un comentario