WEB SUPERFICIAL Y WEB PROFUNDA

Los motores de búsqueda tradicionales (Google, Yahoo, etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.







La Web visible

 
Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda. Entre las características principales de estos sitios encontramos que su información no está contenida en bases de datos, son de libre acceso (no hay que registrarse para acceder), en general están formadas por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace)
 
La Web invisible
 
Comprende toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos, que Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.
 
Para poder acceder a la información disponible en las bases de datos hay que hacer consultas a través de páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.
 
Curiosidad

Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente. La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.
 
Según Sherman y Price (2001), se identifican cuatro tipos de contenidos invisibles en la Web:
  • la Web opaca
  • la Web privada
  • la Web propietaria
  • y la Web realmente invisible

La Web opaca:

Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
  • Extensión de la indización
  • Frecuencia de la indización
  • Limitación del Número máximo de resultados visibles
  • URL’s desconectadas

La web privada:

Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
  • Las páginas están protegidas por contraseñas (passwords).
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad.

La Web propietaria:

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o paga. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.
La Web realmente invisible:


Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
  • Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
  • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
  • Información almacenada en bases de datos relacionales.

Más información:

  • algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;
  • es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;
  • existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;
  • el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;
  • el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;
  • es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.

  • Algunos de los recursos de búsqueda en la Web Profunda son:
    • Ø The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee
    • Ø Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Facilita la consulta de información con opciones de búsqueda por términos o por áreas de conocimiento. Es posible acceder a un buen número de enciclopedias, atlas, y biografías. Y también tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para biografías, o información de todo lo acontecido históricamente en un determinado día.
    • Ø DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda.
    • Ø TechXtra centra su información, en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.


    Según Lluis Codina: "Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado".







     

    MÉTODOS DE BÚSQUEDA

    MÉTODOS DE BÚSQUEDA AVANZADA


    Cuando realizamos una búsqueda en Internet comenzamos por un concepto y lo vamos acotando a medida que encontramos información.

    La mejor manera de obtener buenos resultados en nuestras búsquedas de información en Internet es seleccionar las palabras claves correctas, ya que de ellas dependen enteramente los resultados obtenidos.

    Las herramientas de búsqueda permiten relacionar dos o más palabras claves y frases mediante operadores para ampliar la búsqueda, reducirla o reorientarla según los resultados parciales obtenidos.
    Cada herramienta de búsqueda utiliza su propio conjunto de operadores y una sintaxis específica. Estos operadores, nexos que indican qué relación debe existir entre los términos ingresados, se denominan lógicos o booleanos, en referencia al matemático y filósofo inglés, George Boole, quien en el siglo XIX ideó un sistema para el análisis de variables.
    Algunos de estos operadores se denominan lógicos o booleanos y proporcionan un resultado a partir de que se cumplan o no una cierta condición.
     
    Estos operadores son:
     
    • Y (AND)
    • O (OR)
    • NO (NOT)

     

     A través del siguiente vídeo puedes ver cómo las herramientas de búsqueda nos permiten relacionar dos o más palabras claves y frases mediante operadores para ampliar la búsqueda, reducirla o reorientarla según los resultados parciales obtenidos. 




     
     


    Las mejores herramientas de búsqueda.

    Existen diferentes herramientas online que nos permiten desarrollar murales interactivos en los cuales es posible insertar texto, imágenes, archivos, y además diversos elementos multimedia como links a otros sitios web, audio y video.

    INFOXICACIÓN

     INFOXICACIÓN


    Para entender este término hay que saber que infoxicación es el exceso de información. Surge de la unión de las palabras información e intoxicación. Es recibir cada día centenares de informaciones a las que no puedes dedicar tiempo y sobre la que no puedes profundizar. Esto es el resultado de un mundo donde se prima el estar informado de todo frente a tener información de calidad sobre todo aquello que creemos importante para nosotros o necesitamos estar informados.


    Este término lo introdujo Alfons Cornella en 1996 y se refiere a que la sobrecarga de información que recibe un usuario, sobre todo a través de internet, y que no puede abarcarla ni gestionarla creándole gran angustia.
    La "sobrecarga informativa" (information overload) es una expresión que Alvin Toffler usó en su libro "Future Shock" (1970) y hace referencia al estado de contar con demasiada información para tomar una decisión o permanecer informado sobre un determinado tema.


    ¿Cómo saber si eres una persona infoxicada?  Cuando siente que no puede manejar toda la información que cree que debería manejar y le angustia, cuando todo lo que hace es remitir la información que recibe a otros, cuando te resulta difícil leer un texto de forma pausada, cuando lees saltando palabras, porque te has acostumbrado a leer así en diagonal. Estás infoxicado cuando lees sin entender lo que lees

    ¿Cómo puede afectarnos la infoxicación?

    El exceso de información limita nuestra capacidad de comprender.
    Para procesar mucha información hay que saber dominarla.
    Para poder procesar rápidamente información hay que tener mucho conocimiento sobre ese tema, de esta manera sabremos distinguir si lo que se nos dice es cierto o falso.
    Esta es una de las paradojas con que nos encontramos en nuestra era:  no tenemos tiempo de profundizar en nada, de ser un experto, lo que nos daría capacidad para manejar rápidamente mucha información; en lugar de ello, procesamos más y más información antes de convertirnos en expertos en algo. Leemos mucho y entendemos poco lo que leemos.
    Todo esto puede afectarnos en nuestro rendimiento personal y profesional.
    Si prestamos demasiada atención a una gran cantidad de información de manera sostenida en el tiempo y no finalizamos una tarea para continuar con otra diferente, esto dificulta la desconexión de la mente, y la obliga a realizar un sobreesfuerzo. Es por esto que, debemos reflexionar acerca de cómo nos informamos y qué métodos y herramientas utilizamos para gestionar la información.
    Para que todo esto no ocurriese tendríamos que tener muy claro qué es sobre lo que realmente tenemos que estar informados y después saber buscar formulando las preguntas correctas en las fuentes adecuadas, es decir, sabiendo qué y dónde debemos buscar. Tener un filtro personal de información

     
    Para ello sería bueno que toda la información que recibimos día a día pudiéramos dividirla en tres partes:

    - Información fatal, que es aquella información que no nos interesa en absoluto porque no tiene nada que ver con los temas que tratamos.
    - Información interesante, que es aquella que, en algún momento puede interesarnos .
    - Información realmente útil.

    .

    Más información:
    http://alfonscornella.com/thought/infoxicacion/

    "Como sobrevivir a la infoxicación"- Alfons Cornella.
    http://www.infonomia.com/img/pdf/sobrevivir_infoxicacion.pdf


    "El problema no es la sobrecarga de información, es que el filtro no funciona". http://www.youtube.com/watch?v=LabqeJEOQyI




     

     

    BIENVENIDA

     
    Este blog pretende ser una ventana desde donde podamos abrazar todo aquello que nos permita crecer, que nos motive a aprender a aprender.
    Me gustaría que fuese una herramienta para compartir todo aquello que vayamos descubriendo.
    Gracias