La Web visible
Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda. Entre las características principales de estos sitios encontramos que su información no está contenida en bases de datos, son de libre acceso (no hay que registrarse para acceder), en general están formadas por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace)
La Web invisible
Comprende toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos, que Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.
Para poder acceder a la información disponible en las bases de datos hay que hacer consultas a través de páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
Curiosidad
Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente. La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.
Según Sherman y Price (2001), se identifican cuatro tipos de contenidos invisibles en la Web:
- la Web opaca
- la Web privada
- la Web propietaria
- y la Web realmente invisible
La Web opaca:
Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
- Extensión de la indización
- Frecuencia de la indización
- Limitación del Número máximo de resultados visibles
- URL’s desconectadas
La web privada:
Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
- Las páginas están protegidas por contraseñas (passwords).
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
La Web propietaria:
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o paga. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.
La Web realmente invisible:
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
- Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
- Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
- Información almacenada en bases de datos relacionales.
Más información:
Algunos de los recursos de búsqueda
en la Web Profunda son:
- Ø The
WWW Virtual Library se considera el catálogo más antiguo en la web
y fue iniciado por Tim Berners-Lee
- Ø Infoplease
es una Web de consulta con más de 57.000 artículos de la prestigiosa
enciclopedia Columbia. Facilita la consulta de información con opciones de
búsqueda por términos o por áreas de conocimiento. Es posible acceder a un
buen número de enciclopedias, atlas, y biografías. Y también tiene algunas
ramificaciones interesantes como Factmonster.com para los niños y
Biosearch, un motor de búsqueda sólo para biografías, o información de
todo lo acontecido históricamente en un determinado día.
- Ø DeepWebTech ofrece cinco motores de búsqueda para temas
específicos. Los motores de búsqueda abarcan la ciencia, medicina y
negocios. El uso de estos motores de búsqueda específicos del tema, puede
consultar las bases de datos subyacentes en la Web profunda.
- Ø TechXtra
centra su información, en ingeniería, matemáticas e informática. Es
posible navegar a través de una extensa lista de revistas gratuitas
especializadas de ingeniería, documentos técnicos, descargas y podcasts.
Según Lluis Codina: "Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado".
Enhorabuena María José. Me ha gustado mucho tu Blog. Con buen desarrollo de los contenidos, reforzados con la inclusión de imágenes y vídeos. Un diseño muy personal, vistoso, reflejo de un espíritu artístico. Saludos cordiales.
ResponderEliminar