María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen. |
Hay estimaciones que calculan en 500 veces más grande que el total de la información indizada por los buscadores, la información que permanece invisible en la World Wide Web, lo que se ha denominado el inmenso océano de la Internet profunda. Aunque los buscadores generalistas no suelen indizar archivos no textuales, sí existen una serie de buscadores especializados que indizan imágenes, vídeo, audio, archivos pdf, archivos comprimidos o ejecutables. Sin embargo, muchísimos datos quedan fuera de los buscadores tradicionales, ya sean estos generalistas o especializados, puesto que indizar cierto tipo de informaciones contenidas en enormes bases de datos numéricas o textuales, exige gastar muchos recursos y resulta muy costoso para los buscadores almacenar en sus bases de datos este tipo de formatos. Por otro lado, los buscadores tampoco indizan muchos de los datos que se generan de forma dinámica en tiempo real, puesto que se convierten en obsoletos en un brevísimo lapso de tiempo y no merece gastar recursos en informaciones tan fugaces; y a esto se une que muchas de estas bases de datos dinámicas han de rastrearse desde su propia ubicación o sitio web, y con sus propias herramientas de búsqueda personalizadas, puesto que precisan de pasarelas o contraseñas especiales para acceder a ellas. Si a esto unimos las páginas sin conexión o enlaces aparentes, vemos que una enorme masa de información no es accesible desde los principales buscadores existentes en la World Wide Web. A toda esta gran masa de información es a la que se ha denominado Internet oculta.
Fuente: Isidro F. Aguillo: La Internet invisible. CINDOC. CSIC. Según el estudio How much Information? 2003, realizado por Peter Lyman y Hal R. Varian de la School of Information Management and Systems de la Universidad de California, Berkeley, la cantidad de información de la Web navegable o visible es de 147 terabytes, mientras que la Web invisible es de 91.850 terabytes.
Fuente: How much information 2003 (traducción propia) En capítulos anteriores hemos visto un gráfico con la composición de la Web navegable y los tipos de archivo en la Web, el resto de ese inmenso océano es, precisamente, lo que constituye la la llamada Web invisible, una enorme parte de la Web que está compuesta por enormes bases de datos a las que los usuarios no pueden llegar con los métodos de búsqueda tradicionales. ¿Qué información es la que permanece invisible? Toda aquella información almacenada en bases de datos, material de archivo y herramientas interactivas tales como diccionarios o calculadoras, páginas dinámicas construidas con tecnologías Flash, ASP, PHP, etc. Estos recursos son embebidos dentro de miles de sitios web individuales y no son "visibles" para los motores de búsqueda tradicionales. Para acceder a todo ese incalculable acervo de información sólo podemos interrogar a las bases de datos directa e individualmente a través de sus propios formularios de búsqueda, puesto que las páginas indizables por los motores de búsqueda no dan cuenta de los recursos en ellas disponibles. Lo que está claro es que nadie tiene acceso completo a todo Internet ya que no sólo existen áreas concretas de la red que son inaccesibles a la mayor parte de los internautas, sino también determinados contenidos que permanecen invisibles. Ricardo Fornas Carrasco en La cara oculta de Internet establece 3 tipos distintos de Internet:
Al igual que la Internet invisible, la denominada Web invisible contiene un gran número de fuentes de información que no pueden buscarse porque su contenido no ha sido indizado ni puede serlo por los principales buscadores. Aun cuando recuperemos un sitio que contenga una base de datos, es improbable que el buscador conduzca a la base de datos misma, puesto que requiere que se navegue por el sitio web para encontrarla. Así pues, la Web invisible está constituida por toda esa información accesible vía web, pero a la que no es posible llegar mediante una consulta a los buscadores tradicionales. Por su parte, Isidro Aguillo en Internet invisible distingue entre Infranet y Web invisible, que describe de la siguiente forma:
Fuente: Isidro Aguillo: Internet invisible. Toda esta rica información ha sido inexplorada hasta ahora. Sin embargo, existen en la red, determinados buscadores que sí indizan -y bucean- en parte de esa Web invisible. Entre ellos podemos destacar:
Fuente: Ricardo Baeza Yates. http://www.dcc.uchile.cl/~rbaeza/inf/webfaces.gif Como afirma Ricardo Baeza Yates en Excavando la Web: "la web tiene actualmente al menos unas cuatro mil millones de páginas estáticas y un número cientos de veces mayor de dinámicas (aquellas que sólo se crean producto de un clic o de una consulta en un sitio web). Además, tenemos que agregar toda la web invisible, en intranets o páginas con acceso restringido. La web oculta es seguramente miles de veces más grande que la pública".En la figura anterior se muestra claramente que la Web indizable es sumamente pequeña en el conjunto de la Web y que la región indizable, esto es, de la que efectivamente pueden extraer información los buscadores, es muy pequeña y se corresponde en gran parte con la zona pública estática. La figura también muestra que, en la actualidad, las páginas con información semántica son muy pocas, por lo que la Web Semántica, queda todavía lejos. BibliografíaAGUILLO, Isidro. "Internet invisible o Infranet: definición, clasificación y evaluación". VII Jornadas Españolas de Documentación. Bilbao, Universidad del País Vasco, 2000. AGUILLO, Isidro. Internet invisible: Los contenidos son la clave. CINDOC-CSIC, 2003. http://internetlab.cindoc.csic.es/cursos/Internet_Invisible2003.pdf [Volver]
BERGMAN, Michael K. "The Deep Web: Surfacing Hidden Value" (BrightPlanet White Paper). http://www.brightplanet.com/technology/deepweb.asp CyberAtlas, citing the CIA World Factbook http://cyberatlas.internet.com/big_picture/geographics/article/0,1323,5911_151151,00.html FORNAS CARRASCO, Ricardo. "La cara oculta de Internet". Hipertext.net, núm. 1, 2003 http://www.hipertext.net/ [Volver] InvisibleWeb.com (en inglés) http://www.invisibleweb.com/ Internetinvisible.com (en castellano) http://www.internetinvisible.com/ LARDY, Jean-Pierre. http://www.addnb.fr/article.php3?id_article=35 LYMAN, Peter and VARIAN, Hal R. How Much Information? 2003 http://www.sims.berkeley.edu/research/projects/how-much-info-2003/printable_report.pdf y http://www.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm [Volver] SALAZAR, Idoia. "El inmenso océano del Internet profundo". Ciberp@is, 25 de octubre de 2005. SALAZAR, idoia. Las profundidades de Internet: Accede a información que los buscadores no encuentran y descubre el futuro inteligente de la red. Gijón, Ediciones Trea, 2006. SHERMAN, Chris. The invisible Web http://www.freepint.com/issues/080600.htm#feature
URL:
http://www.hipertexto.info
Fecha de Actualización:
08/12/2013
Fundación Ricardo Lamarca, Ajedrez y
cultura
http://www.fundacionlamarca.es
Mapa de navegación
/ Tabla de contenido /
Mapa conceptual /
Tabla de documentos /
Buscador /
Bibliografía utilizada / Glosario de Términos /
Índice Temático /
Índice de Autores
|
|