SGBD y STRID

SGBD y STRID

María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen.

Los sistemas de recuperación de información (Information Retrieval Systems) ofrecen al usuario herramientas para la búsqueda, acceso y recuperación de recursos en soporte informático. Estos sistemas son capaces de crear y gestionar fuentes y recursos de información. En los entornos empresariales se habla también de sistemas de gestión documental, aunque este término, usado para denominar todo el sistema que facilita el control y gestión de toda la documentación recibida por una unidad, es mucho más impreciso.

Ya hemos hablado de que la información a recuperar puede ser de 2 tipos:

recuperación de datos (data retrieval)
recuperación de documentos (information retrieval)

Según Blair, estos dos tipos de información "data retrieval" (recuperación de datos, RD) e "information retrieval" (recuperación de información, RI), necesitan una gestión y un tratamiento de la información distinto:

Los sistemas de gestión de bases de datos (SGBD) manipulan registros (Data retrieval)
Los sistemas de tratamiento y recuperación de información documental (STRID) manipulan documentos (Information retrieval)

Siguiendo a Blair, las diferencias entre estos dos sistemas se pueden establecer teniendo en cuenta los siguientes criterios:

Según la forma de responder a la pregunta: en RD se utilizan preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En RI las preguntas resultan difíciles de trasladar a un lenguaje normalizado, y la respuesta es un conjunto de documentos que pueden contener, sólo probablemente, lo deseado, con un evidente factor de indeterminación.
Según la relación entre el requerimiento al sistema y la satisfacción de usuario: en RD la relación es determinante entre la pregunta y la satisfacción. En RI es probabilística, a causa del nivel de incertidumbre presente en la respuesta.
Según el criterio de éxito: en RD el criterio a emplear es la corrección y la exactitud, mientras que en RI el único criterio de valor es la satisfacción del usuario, basada en un criterio personal de utilidad.
Según la rapidez de respuesta: en RD depende del soporte físico y de la perfección del algoritmo de búsqueda y de los índices. En RI depende de las decisiones y acciones del usuario durante el proceso de interrogación.

Estos 2 sistemas de tratamiento de la información (datos y documentos) han seguido, tradicionalmente 2 modelos de tratamiento de la información distintos:

Modelo relacional: característico de los sistemas de gestión administrativa. Este modelo se basa en la utilización de una serie de tablas que almacenan la información relativa a un conjunto de datos relacionados. Las tablas se organizan en filas y columnas que definen los registros y los campos. Las tablas pueden relacionarse entre sí a partir de campos comunes lo que garantiza su versatilidad.

Modelo textual: es el modelo más apropiado para tratar documentos. Se basa en el "fichero invertido" y en campos de extensión variable con valores repetidos. Cada cadena de caracteres puede ser punto de acceso al registro, lo cual constituye una de las principales diferencias con el modelo relacional. El registro se constituye así como representación del documento original y, a la vez, cada término o palabra puede servir de punto de acceso al documento.

Sin embargo, tanto los modelos de gestión de bases de datos, como los modelos que tratan documentos han evolucionado enormemente en los últimos años debido, sobre todo, a la necesidad de adaptarlos para su uso en red y, más concretamente, en la World Wide Web. Veamos pues, con más detalle, las características y peculiaridades de estos dos sistemas de tratamiento y recuperación de información.

Sistemas de Gestión de Bases de Datos (SGBD)

Los SGBD también llamados DBMS por sus siglas en inglés: DataBase Management Systems, no manipulan documentos, sino que manipulan registros.

Un Sistema de Gestión de Bases de Datos es un programa o aplicación capaz de gestionar adecuadamente las bases de datos. Actualmente casi todos los SGBD implementan los conceptos descritos en la teoría relacional. Un SGBDR (sistema gestor de bases de datos relacional) almacena la información en tablas organizadas lógicamente que se enlazan definiendo relaciones y contienen datos. El lenguaje de consulta SQL (Structured Query Language), que ha sido estandarizado por la ISO, proporciona la recuperación y gestión de estos datos.

Generalmente las bases de datos manejan transacciones que deben cumplir una serie de propiedades, a las que, comúnmente, se les suele denominar como propiedades ACID (Atomicity, Consistency, Isolation, Durability):

Atomicidad: garantiza que o se ejecutan todas las acciones, o no lo hace ninguna.
Consistencia: garantiza que, aunque haya muchos usuarios accediendo a la base de datos de manera concurrente, se mantenga la integridad de la información.
Aislamiento: garantiza que las transacciones que se están realizando concurrentemente en el sistema no interfieran entre ellas.
Durabilidad: garantiza que una transacción que finaliza correctamente queda adecuadamente reflejada. Además, el sistema será capaz de recordar todas la transacciones que han sido realizadas.

Los sistemas de gestión de bases de datos más conocidos son, entre otros:

dBase: http://www.dbase.com/
FileMaker: http://www.filemaker.com/

Knosys: http://www.knosys.net

Microsoft Access: http://office.microsoft.com/es-es/FX010857913082.aspx

Y existen otros muchos programas gratuitos que se pueden encontrar en cualquier sitio de descargas de software que existen en la Web.

Sin embargo, los sistemas de gestión de bases de datos que más se utilizan en la actualidad son los que se pueden integrar en la red, entre los que destacan:

MySQL: se trata de la base de datos relacional de código abierto más popular en Internet. Existen distribuciones para distintas plataformas (Win32/NT, Unix/Linux), y en muchas de ellas, como Red Hat Linux, se instala por defecto. Actualmente es propiedad de una empresa sueca llamada MySQL AB, que se encarga de su desarrollo y ofrece servicios auxiliares de consultoría y soporte técnico. El software es gratuito, pero, su uso en algunas aplicaciones está sujeto a licencia de pago.
mSQL (Mini SQL): se trata de un gestor de bases de datos ligero, diseñado para proporcionar acceso rápido a conjuntos relativamente pequeños de datos almacenados en sistemas con poca memoria. Implementa un subconjunto de SQL e inicialmente fue desarrollado como un proyecto académico en código abierto. http://www.hughes.com.au
PostgreSQL: es un gestor de bases de datos Relacional-Objetual. Es uno de los sistemas de gestión de bases de datos relacional de código abierto más antiguos, pues la primera versión data de 1985. Está muy extendido en el mundo Unix/Linux ya que muchas distribuciones Linux, como Red Hat lo instalan por defecto, aunque existen versiones para plataformas Windows. Soporta casi todas las construcciones SQL, tiene una amplia conectividad y una gran diversidad de herramientas disponibles. http://www.postgresql.org
Microsoft SQL Server: aunque Microsoft cuenta con productos de escritorio para gestión de bases de datos como Access, este es el sistemas de gestión de bases de datos más potente. Se integra en la nueva plataforma .NET y funciona sobre Windows NT/2000. http://www.microsoft.com/sql/default.asp
Informix: las herramientas y productos de Informix han estado presentes en el mercado de bases de datos de forma constante, pero hoy esta empresa ha sido adquirida por IBM. http://www.informix.com
Sybase Adaptative Server: proporciona una plataforma diseñada para soportar aplicaciones que utilizan transacciones de manera intensiva. http://www.sybase.com
Sistemas Oracle: existen un gran número de sistemas desarrollados por la empresa Oracle, una de las compañías que desarrollan bases de datos que tienen una mayor presencia en la Web actual. Se trata de sistemas muy potentes, configurables, escalables y confiables y que proporcionan bastantes funcionalidades, muchas de ellas no soportadas por los sistemas de gestión de bases de datos de código libre. Sin embargo, no son gratuitos y debido a las grandes posibilidades de configuración que ofrecen, y sólo pueden ser utilizados por expertos. http://www.oracle.com/

De los 6 sistemas anteriores, los 3 primeros son libres y el resto son soluciones comerciales de pago. Una de las tendencias más claras en la Web actual es integrar el acceso a datos en los servidores de aplicaciones. Esta tendencia llevada a sus extremos hace que casi todos los fabricantes de sistemas de gestión de bases de datos comerciales ofrezcan sus propios servidores de aplicaciones que se integran a bajo nivel con los productos de bases de datos de la misma empresa. Como ejemplos Sybase Enterprise Server y Oracle Application Server.

Tanto los sistemas de tratamiento y recuperación de información documental (STRID) como los sistemas de bases de datos (SGBD) tienen las mismas bases teóricas, aunque estos últimos sean más rígidos y sujetos a normas fijas por tratar datos más precisos y homogéneos. Lo corriente es que aparezcan programas y aplicaciones mixtas que adoptan técnicas comunes a ambos. Lo cierto que todos estos sistemas de recuperación de información son posibles gracias a la existencia de programas y aplicaciones que ejecutan ecuaciones de búsqueda y que son capaces de de trasladar una pregunta del usuario realizada en lenguaje natural, a los lenguajes documentales

Sistemas de Tratamiento y Recuperación de Información Documental (STRID)

Los sistemas de tratamiento y recuperación de información documental (STRID) manipulan documentos, esto es, construcciones cognitivas que representan creaciones humanas. Entre estos sistemas podemos destacar:

Sistemas de gestión de bases de datos documentales (sistemas que automatizan las características de los sistemas tradicionales de creación y gestión de bases de datos, control de usuarios, etc.)
Indizadores (sistemas que crean ficheros índice y que permiten la recuperación posterior utilizando operadores booleanos)
Exploradores o escáneres (sistemas que pueden realizar búsquedas mediante cadenas de caracteres sin necesidad de crear ficheros inversos o diccionarios, a veces combinan la exploración con la indexación)
Gestión bibliográfica (sistemas especializados para la gestión y tratamiento de bibliografías especializadas)
Recuperación de información (programas que permiten la consulta en bases de datos documentales no modificables, generalmente publicados en CD-ROM u ofrecidos por proveedores de bases de datos en línea)
Sistemas hipertextuales (como forma de gestionar los documentos)
Sistemas de gestión electrónica de documentos (GED) (sistemas que ofrecen una solución administrativa de gestión integral. El Grupo de Trabajo sobre Gestión Electrónica de Documentos del SEDIC ha elaborado una lista de Productos de Gestión electrónica documental que se pueden encontrar en España: http://www.sedic.es/prodweb.xls)
Gestores de información personal
Sistemas integrados para unidades de información (ofrecen soporte a todas las operaciones que tienen lugar en una unidad informativa concreta como un archivo, biblioteca o centro de documentación; tanto en los aspectos técnicos como administrativos)
Sistemas de gestión de bases de conocimiento: también conocidos como KBMS o Knowledge Base Management System. Mientras que una base de datos almacena datos, esto es, hechos del universo del discurso para facilitar la edición y consulta de los datos, una base de conocimiento puede almacenar, además de los hechos, un conjunto de reglas que se sirven de esos hechos para obtener información que no se encuentra almacenada de forma explícita, sino que es fruto de aplicar una cierta capacidad de deducción a partir de la información contenida. Por esto, estas bases de conocimiento también se han denominado sistemas expertos. En realidad, el término base de conocimiento es un término informal para referirse a una colección de información que incluye una ontología como uno de sus componentes. Una base de conocimiento debe contener información especificada en un lenguaje declarativo tal como reglas lógicas o sistemas expertos, aunque también incluye información no estructurada o formalizada expresada en lenguaje natural o código procedural. Así pues, muchas de las herramientas citadas en este tesis en relación a la construcción de ontologías o algunos paquetes de programas que incluíamos a la hora de citar herramientas para construir tesauros son, en realidad, sistemas de gestión de bases de conocimiento.

Un sistema STRID se basará en:

Creación de bases de datos documentales
Introducción/edición de documentos
Recuperación de información
Salida de información
Análisis de respuesta
Creación de distintos perfiles de usuario
Mecanismos de control terminológico
Ayuda al usuario
Otras funciones como acceso a múltiples usuarios, niveles de seguridad, recuperación de archivos, etc.

Los elementos característicos de una base de datos documental son:

Modelo de registro textual integrado por campos de extensión variable basado en un diccionario de datos.
Fichero invertido.
Diccionarios de control de indización (diccionarios de palabras vacías, diccionarios de sinónimos, diccionarios de autoridades)
Sistema de recuperación basado en el álgebra de Boole que permita realizar combinaciones lógicas entre conjuntos de documentos
Sistema de recuperación basado en relaciones entre cadenas de caracteres.

Subsistemas de un Sistema de Tratamiento y Recuperación de Información Documental son, según Lancaster y Warner son:

De selección de documentos
De indización
De vocabulario
De búsqueda
De interacción hombre-máquina
De comparación

Como ya hemos afirmado, una fase más avanzada en la recuperación de información son los llamados sistemas de gestión de bases de conocimiento basados en la utilización de ontologías, tesauros y otros sistemas de gestión del conocimiento, todos ellos constituyen lo que se ha denominado sistemas expertos, aunque también podemos citar el llamado KD o Knowledge Discovery, basado en:

Enfoque de Data Mining o minería de datos (también existe el Web Mining para referirse al descubrimiento de la información en la Web)
Descubrir patrones y asociaciones ocultas entre los datos y documentos
Ofrecer al usuario información relacionada
Ofrecer al usuario nuevas relaciones

La evaluación de cualquier sistema de tratamiento y recuperación de información para por su capacidad para manipular información textual o de otro tipo (imágenes, audio, etc.), los métodos de indización y clasificación empleados, los mecanismos, ecuaciones de búsqueda, interfaces y lenguajes de interrogación que ofrece, los resultados obtenidos en la recuperación: pertinencia, exhaustividad, etc. Muchos sistemas añaden a estas funcionalidades la capacidad de recuperación mediante exploración hipertextual e incluso son capaces de generar modelos visuales de representación, a modo de mapas de conocimiento, para mostrar el contenido relevante.

Gestores de información

Entre los sistemas de gestión documental más conocidos se encuentran los productos y aplicaciones de FileMaker, Knosys, el software CDS/ISIS desarrollado por la UNESCO o los productos de la compañía Inmagic, que cuenta con varias soluciones como DB/TextWorks, DB/Text WebPublisher o DBText Intranet Spider. Todos estos sistemas cuentan con pasarelas web para permitir las consultas, desde el navegador web, a las bases de datos creadas por ellos. Es de destacar también el software multilingüe de fuente abierta Greenstone Digital Libraries (http://www.greenstone.org/cgi-bin/library) que sirve para crear y distribuir colecciones de bibliotecas digitales.

También existen otra serie de herramientas muy sencillas y menos conocidas, algunas de ellas de libre disposición, pero que cuentan con un gran potencial para gestionar documentos en diferentes morfologías de información: texto, imágenes, audio, etc. Las más potentes sirven también para gestionar sitios web y permiten clasificar los documentos, indizarlos, hacer tablas de contenido, realizar búsquedas, etc. Algunos incluyen hasta diccionarios y tesauros.

No cabe duda de que la forma hipertextual es en sí misma una herramienta para organizar y gestionar la información. A muchos de estos programas también se les denomina herramientas de autor, porque sirven para gestionar a pequeña escala nuestros propios hiperdocumentos.

TreePad Business Edition

TreePad http://www.treepad.com

Catalogador CatalogaTodo http://www.personal/telefonica.terra.es/web/quinipan

Catalogador http://www.yursuf.com

Cathy
Catalogador Cathy http://rvas.webzdarma.cz

CD Database Expert http://www.cddexpert.com

CD Catalog Expert http://www.zero2000.com

Collectibles Organizer Deluxe http://www.primasoft.com/deluxepr/clodx.htm

Advanced File Organizer
Advance File Organizer http://www.softprime.com y
Archivero Digital. http://www.fonomax.com/archivero (permite exportar a HTML)

InsideCat Lite Edition http://www.inside.com

Maple

Maple http://www.crystaloffice.com

ejemplo con Maple

Ejemplo de Maple con la Tabla de contenidos de esta tesis

Incluso el programa de Microsoft HTML Help Workshop que es el estándar para elaborar las Ayudas en Windows, permite catalogar, indizar, hacer tablas de contenido y búsquedas de nuestros documentos tanto en formato texto como HTML y permite otros lenguajes como, ActiveX, Java, JScript y Microsoft Visual Basic, formatos de imagen: .jpeg, .gif, y .png. He aquí un ejemplo con el propio hipertexto de esta tesis en su fase de elaboración.

HTML Help Workshop

Ejemplo de HTML HelpWork http://www.microsoft.com
con la Tabla de contenidos de esta tesis

El programa HTML Help Workshop se puede descargar desde la página de Microsoft:
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/htmlhelp/html/hwMicrosoftHTMLHelpDownloads.asp

Con la aparición de la llamada Web 2.0, han proliferado los Sistemas de gestión de contenidos o Content Management System (CMS). Estas herramientas permiten la creación y administración de contenidos de páginas web. Se trata de una interfaz que controla una o varias bases de datos donde se aloja el contenido del sitio web. Hay gestores para páginas web, foros, blogs, wikis, etc. Estos sistemas permiten tratar de manera separada el diseño del contenido. Una relación exhaustiva de estas herramientas se ofrece en esta tesis en Sistemas de Gestión de Hipertextos para la Web 2.0.

Bibliografía:

ACM SIGMOD. Publicly Avalaible Database software. http://www.sigmod.org/databaseSoftware/

BLAIR, D.C. Language and Representation in Information Retrieval. Amsterdam: Elsevier, 1990 [Volver]

CMS-Spain.com http://www.ecm-spain.com/home.asp

CODINA, Lluis. Bases de Datos Documentales: Talleres de Sistemas de Gestión de Bases de DAtos Documentales. http://www.lluiscodina.com/metodos.htm#ii

LANCASTER, F.W. y WARNER, A.J.: Information Retrieval Today. Arlington: Information Resources Press, 1993. [Volver]

PÉREZ, Chantal. Bases de datos y Bases de conocimiento. http://elies.rediris.es/elies18/522.html

TRAMULLAS, Jesús. "Sección 2: Los sistemas de bases de datos y los SGBD”. En Introducción a la Documática. http://tek.docunautica.com/

TRAMULLAS, Jesús. "Sección 3: La recuperación de información”. En Introducción a la Documática. http://tek.docunautica.com/

TRAMULLAS, Jesús. "Sección 4. Sistemas informáticos de tratamiento y recuperación de información documental". En Introducción a la Documática. http://tek.docunautica.com/

Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen Autora: María Jesús Lamarca Lapuente (currículo personal) Contacta Tesis doctoral. Universidad Complutense de Madrid URL: http://www.hipertexto.info Fecha de Actualización: 08/12/2013 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb. 34.389 enlaces (10.436 externos y 23.953 internos)	Esta obra está licenciada bajo las siguientes condiciones: Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.
OTRAS PÁGINAS DE LA AUTORA
Blog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ Ageteca. Base de Datos de Gestión Cultural: http://www.agetec.org/ageteca Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es	Blog La artesa digital http://artesadigital.blogspot.com.es Especial Poesía: Hasta allí hemos llegado Flickr La artes@ digital: Galería de fotos mundo digital y mundo analógico: http://www.flickr.com/photos/artesadigital/ Blog Miembras: Usos lingüísticos, políticos y sociales del lenguaje http://miembras.blogspot.com

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores