María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen. |
Los principales buscadores de Internet construyen sus bases de datos usando robots comúnmente denominados spiders (arañas), crawlers o webcrawlers. Estos robots son potentes programas que recorren la Web de forma automática y buscan textos, a través de los documentos HTML (u otro tipo de formatos como pdf, imágenes, etc.), donde se incluyan determinadas palabras. Estos textos, junto con las direcciones URL que los contienen, son indexados, clasificados y almacenados en grandes bases de datos para que los internautas, posteriormente, dirijan allí sus consultas e interroguen a la base de datos buscando alguna palabra o frase. Los robots vuelven a recorrer periódicamente estas páginas para buscar alguna modificación o la incorporación de nuevas palabras. Así, la actualización se realiza de forma automática. En general, los robots comienzan con un listado de enlaces y URLs preseleccionadas y, recurrentemente, visitan los documentos que se referencian desde las mismas. Así pues, en la red hay varios sistemas de búsqueda e indización basados en robots software que:
Ejemplos de robots son:
De esta forma, podemos definir un robot como un programa que recorre una estructura de hipertexto recuperando un enlace y todos los enlaces que están referenciados para, a partir de ahí, alimentar las grandes bases de datos de los motores de búsqueda de la Web. Por el contrario, los Índices y Directorios suelen formarse de forma manual operados por humanos (o de forma automática, pero una vez que los humanos han introducido los datos en el índice por categorías y subcategorías) y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas previamente incluyen en ellos, pudiendo como ventaja, clasificar fácilmente por secciones los temas de las páginas web. Para ver en la práctica cómo funciona un robot, existe una herramienta gratuita en la red que simula lo que ve exactamente un buscador cuando visita una página web. Al introducir una URL, esta herramienta muestra lo que ve el buscador, la información que éste podría indizar y un análisis de los enlaces encontrados en la página: Searh Engine Spider Simulator http://www.webconfs.com/search-engine-spider-simulator.php Robots: los robots adoptan numerosas denominaciones. Casi todas ellas tienen que ver con la metáfora de la Web como telaraña en la que estos robots se mueven como virus. Sin embargo, lo único que hace un robot es visitar los sitios y extraer los enlaces que están incluidos dentro de estos. He aquí los principales tipos y denominaciones de robots:
Se pueden utilizar robots para diferentes propósitos:
Una característica importante de los robots es la clase de algoritmos utilizados para:
Para ayudar a los robots a indizar las páginas (o a no indizar ciertas páginas), se pueden utilizan 2 mecanismos diferenciados:
También existen otra serie de metaetiquetas para indicarle al robot determinadas acciones:
Mientras que el uso del archivo robots.txt está estandarizado y lo utilizan los principales robots, no ocurre lo mismo con las metaetiquetas. De cualquier forma, hay que tener en cuenta que existen miles de robots rastreando la red y que muchos de ellos no respetan estas convenciones, por lo que las indicaciones de acceso o las instrucciones de restricción de dicho acceso sólo serán respetadas por aquellos que operen siguiendo la ética de la red. Estos estándares se pueden consultar en Robots Exclusion: http://www.robotstxt.org/wc/exclusion.html Cada motor de búsqueda sigue unas diferentes características de rastreo o crawling (rastreo profundo, soporte de: marcos, mapas de imágenes, lectura del archivo robots.txt, metaíndice robot, rastreo de enlaces de popularidad, aprender de la frecuencia, inclusión de pago, etc.), características de indización (texto completo, palabras vacías, metadescripción, meta palabras clave, texto alternativo, comentarios, etc.) y características de clasificación (estímulos de clasificación por meta-índices, enlaces de popularidad, por aciertos directos, etc.). También reaccionan de forma distinta ante el uso de técnicas para mejorar la clasificación, lo que en argot técnico se denominan técnicas de spam, entre las que destacan: uso de páginas de meta-refresco o redireccionamiento que conducen a otras páginas; colocar texto invisible al ojo humano, pero legible por el motor de búsqueda; etc. Muchos robots prohíben el uso de estas técnicas y directamente no indizan estas páginas, mientras que otros robots no indizan el texto pequeño porque lo suelen confundir con spam, etc. The Web Robots Page (http://www.robotstxt.org/wc/robots.html) ofrece una completísima información sobre los robots que operan en la Web y ofrece una lista exhaustiva de robots y una base de datos por tipos de robots con las principales características de cada uno de ellos: propósito, plataforma de utilización, contacto, etc. Si el término robot se presenta confuso para establecer una definición y una tipología claras, lo mismo sucede con el término agente, puesto que a veces ambos términos se presentan como sinónimos y, así, suele utilizarse el término agente dentro de la propia definición de robot o como un tipo específico de robot. "Robot es un agente explorador no humano que examina sitios web, siguiendo enlaces de hipertexto para indexarlos y añadirlos a su base de datos". Agentes: el término agente fue empleado por vez primera por Minsky en su obra "The Society of Mind". En el momento actual, la palabra "agente" tiene muchos significados distintos, puesto que se utiliza en disciplinas muy distintas. Así, encontramos agentes referidos a:
Fuente: STAN, Franklin. GRAESSER, Art. Is it an Agent, or just a Program? A Taxonomy for Autonomous Agents. http://www.msci.memphis.edu/~franklin/AgentProg.html Y cuyas propiedades se pueden resumir de la siguiente forma:
En el campo informático y, de forma general, podemos definir un agente como un componente software y/o hardware que es capaz de actuar para realizar tareas en beneficio del usuario. De forma más específica y siguiendo a Jesús Olivares, un agente es un sistema de hardware/software que interactúa con su entorno (u otros agentes o humanos), guiado por uno o varios propósitos, es proactivo (reacciona a eventos y a veces se anticipa haciendo propuestas), adaptable (se puede enfrentar a situaciones novedosas), sociable (se comunica, coopera o negocia) y su comportamiento es predecible en cierto contexto. La tipología de los agentes varía de unos autores a otros, pero lo más común es establecer una tipología basada en 3 características: cooperativos, autónomos y de aprendizaje. Así, encontramos:
Las aplicaciones de los agentes son muy numerosas, entre las que podemos destacar: uso de agentes en Internet e interfaces de usuarios, utilización en sistemas de información, juegos y animaciones, comercio electrónico, educación, etc. En el ámbito de la Web y, de forma específica, podemos destacar los siguientes tipos de agentes:
El sitio web citado anteriormente: The Web Robots Pages cuenta con un apartado llamado The Web Robots FAQ que explica numerosas cuestiones sobre las definiciones, funciones y tipos de robots y agentes Web. Jesús Tramullas en Recuperación de información en Internet afirma que un concepto claro en la definición de agente es el de cooperación. Este autor distingue los siguientes tipos de agentes personales:
Los agentes personales aplican los principios de los agentes de software situándose al lado del usuario, quien les delega sus tareas y actúan en segundo plano. Según Tramullas, estas tareas sea llevan a cabo por medio de las siguientes fases:
A pesar de que existen diversas definiciones del término agente inteligente, centrándonos en los sistemas de ayuda al usuario para la recuperación de información o para ayudarle a este a realizar tareas simples, los métodos frecuentemente utilizados para el desarrollo de agentes inteligentes basados en técnicas de minería de datos (datamining) y aprendizaje son:
Fuente: Web Admin's Guide to Site Search Tools. http://www.searchtools.com/guide/index.html Existe una forma de saber si nuestras páginas web han sido visitadas por un robot. Si contamos con algún servidor de estadísticas y vemos que este muestra que un mismo IP ha accedido a todas las páginas del hiperdocumento en un brevísimo lapso de tiempo, es señal de que el visitante es un robot, ya que esto no podría hacerse de forma manual en unos pocos segundos. Otra forma aún más segura es conocer el nombre propio del servidor que corresponda a esa IP y si este coincide con alguno de los motores de búsqueda más comunes que rastrean la red, no hay duda, hemos sido "espiados" e indizados por un motor de búsqueda. A pesar del desarrollo tecnológico y perfeccionamiento de robots y agentes, el crecimiento imparable de la Web se ha convertido en un verdadero problema para las técnicas de indización y búsqueda de la información en la red y mantener actualizadas las bases de datos de los buscadores se hace cada vez más difícil. Los sistemas de indización centralizados no se pueden aplicar a toda la red debido al enorme tamaño de esta, a los recursos que se precisan para procesar y almacenar tal volumen de información y al ancho de banda que se consume. Todo ello conduce a la imposibilidad de que un único robot de indización cubra toda la Web. Por otro lado, muchos robots web causan tráfico extra y un desperdicio del ancho de banda porque varios robots recuperan el mismo documento para indizarlo y actualizarlo. Aunque existen muchas propuestas para resolver este problema tratándolo desde una perspectiva de red, la única opción, por ahora, es elegir, en cada caso concreto, el buscador más apropiado para nuestros gustos y necesidades de información. Como hecho curioso, a la derecha se muestra una imagen del chat-robot creado por Ikea que es capaz de responder a casi cualquier pregunta. Lo mejor es probar a hacerle alguna consulta para ver su funcionamiento. http://193.108.42.79/ikea-es/flash_files/bot.html Bibliografía:
KOSTER, Martijn. The Web Robots Pages. http://www.robotstxt.org/wc/robots.html
|