Normalización en la descripción de contenidos

Para la descripción de contenidos existen muchos proyectos e iniciativas de normalización, algunas ya muy consolidadas y otras incipientes, pero no existen normas únicas puesto que estructurar y definir el contenido de la World Wide Web, además de ser una tarea difícil y casi impracticable, exige distintos niveles de profundidad y distintas formas de categorización según sea el ámbito de actuación donde se apliquen. De manera similar a lo que ocurre con los documentos impresos, la descripción de un documento web no la hará de igual forma una biblioteca digital muy especializada que una biblioteca escolar.

A esto se añade que en el caso de los documentos digitales, contamos con documentos elaborados tanto por un pequeño comercio on-line, como por una gran empresa o institución, o por una persona que fabrica su propia web personal pues, no hay que olvidar que Internet ha convertido a cualquier persona en editor. Cada institución, organismo o sujeto individual estarán interesados en un nivel distinto de descripción (más detallado o menos) y en mostrar sobre todo, determinados datos sobre otros (una tienda querrá enfatizar el precio; una editorial, los derechos de autor; una biblioteca especializada buscará una descripción muy compleja, detallada y bien estructurada, etc.). No es posible satisfacer todas las necesidades a la vez, aunque la necesidad de encontrar en la red precisamente lo que se busca, y no una maraña ingente de información sin sentido, está obligando a tomar medidas concretas para una más correcta y homogénea identificación y descripción de los documentos en línea.

Los intentos de normalización en la descripción de contenidos web en el campo de la documentación, se centran en dos aspectos principales: el desarrollo de modelos formalizados o estándares de metadatos y los intentos de incorporar los documentos electrónicos a través del campo 856 del formato MARC 21, además de la adaptación de este formato a la Web mediante el desarrollo del MARCXML. El lenguaje XML trabaja con marcas o etiquetas que describen la información y, de esta forma, los usuarios pueden trabajar con esos datos de manera más flexible y comprensible que en el formato MARC. Además, de que el lenguaje de este esquema de metadatos es comprensible para las máquinas que "leen" la World Wide Web.

Normalización mediante metadatos

Los proyectos que existen actualmente sobre metadatos no son en realidad normas, sino proyectos de normas o estándares que se usan en determinados organismos y grupos de usuarios, pero lo cierto es que no existe un modelo internacional de metadatos. Las únicas normas internacionales en este sentido, son las elaboradas por la ISO/IEC que cuenta con un comité, el Data management and interchange JTC1/SC32, que se ocupa de normalizar los elementos de datos y facilitar el intercambio de información entre distintas bases de datos.

Desde hace unos años, los modelos de metadatos para la descripción de contenidos de los documentos han proliferado de forma creciente. Los modelos más importantes y consolidados son:

Es el formato de metadatos más conocido y extendido a nivel general, pero sobre todo en el ámbito de la biblioteconomía y documentación. Se diseñó en 1995 para ofrecer un estándar general, sencillo y descriptivo de los documentos web de cualquier ámbito o materia. La indización a través de los metadatos de Dublin Core se realiza de forma muy sencilla mediante un conjunto de 15 elementos, opcionales y repetibles que permiten describir el contenido del documento digital. Estos elementos tienen que ver con distintos tipos de información: el contenido propiamente dicho, la propiedad intelectual y los elementos relativos a la temporalidad, formato e identificación del documento.

CONTENIDO	PROPIEDAD INTELECTUAL	INSTANCIACIÓN
Title (Título)	Creator (Autor)	Date Fecha de publicación
Subject (Materia)	Publisher (Editor)	Type (Tipo de objeto)
Description (Descripción)	Contributor (Otros agentes responsables)	Format (Formato)
Source (Fuente de la que deriva el recurso)	Rights (Derechos de autor)	Identifier (Identificador)
Language (Lengua del contenido)
Relation (Relación con otros objetos de Internet)
Coverage (Cobertura cronológica y geográfica)

El modelo Dublin Core es de fácil aplicación para la descripción y catalogación de documentos y recursos web de todo tipo. Además, el Consorcio Web W3C y la IETF trabajan conjuntamente con la Dublin Core Metadata Initiative (DCMI) para codificar los metadatos DC en RDF. El modelo de Dublin Core se usa actualmente en muchas bibliotecas y centros de documentación de todo el mundo. En España, la RedIris, Red Española de I+D que agrupa a la mayor parte de las bibliotecas públicas universitarias y centros de documentación españoles, sigue el modelo de metadatos de Dublin Core. La norma ISO 15836:2003 es la que recoge el conjunto de elementos del modelo Dublin Core. Debido a la importancia de este modelo se ofrece ofrece una información más detallada en un capítulo aparte de esta tesis denominado Metadatos Dublin Core.

La TEI o Iniciativa para la Codificación de Textos, es un proyecto interdisciplinar del área de humanidades (University of Oxford -Humanities Computing Unit; Brown University -Scholarly Technology Group-; University of Bergen -Humanities Information Technologies Research Programme-; University of Virginia -Electronic Text Center and The Institute for Advances Techology in the Humanities-) que nace en 1987 y que, a través de la Association for Computers and the Humanities, la Association for Computational Linguistics y la Association for Literary and Linguistic Computing) se organizan con el fin de preparar e intercambiar textos electrónicos útiles para la búsqueda, la investigación académica y la enseñanza en línea. En 1994 el TEI publica la primera edición de "Guidelines for Electronic Text Encoding and Interchange" http://www.tei-c.org/Guidelines2/, que ha sufrido varias correcciones hasta la edición actual y que sigue en permanente actualización y desarrollo. En esta guía se detallan las recomendaciones para codificar todas las clases de materiales textuales, en todas las lenguas y de todos los tiempos, usando un esquema codificado.

A pesar de referirse sólo al campo de la lengua, la literatura y las humanidades, el modelo de la TEI ha servido y sirve para la estructuración de la información electrónica de todo tipo. En el campo de los metadatos, podemos destacar la importancia del elemento (TEIH), Text Encoding Initiativa (TEI) Header que es el que se refiere a la cabecera del documento y donde se localiza la descripción para cada texto codificado mediante metadatos que incluyen información bibliográfica detallada (título, publicación y fuente, son elementos obligatorios, pero existen otros opcionales como el tipo de archivo y extensión, edición, notas, etc). La nueva versión de la Guía sirve para la descripción del contenido web en lenguaje XML está disponible en: http://www.tei-c.org/P4X/

RDF es un modelo muy extendido que ha sido desarrollado por el World Wide Web Consortium (W3C), y es, sin duda, el modelo más importante para la descripción de contenidos web. Además, RDF utiliza el lenguaje XML, lo que permite interconectar varios modelos de metadatos para la descripción del contenido web. RDF funciona con una semántica basada en 3 aspectos: un modelo de datos, una sintaxis y un esquema. Se trata de unas normas estructuradas de metainformación para realizar el procesamiento de los metadatos. El W3C publica todas las especificaciones y recomendaciones sobre este modelo de metadatos. La sintaxis y el modelo de RDF se describen en Resource Description Framework (RDF): Model and Syntax Specification. W3C Recommendation, pero también se ofrecen otra serie de recomendaciones y especificaciones, por ejemplo, las referidas a la definición y desarrollo de vocabularios RDF en Resource Description Framework (RDF) Schema Specification

En una capítulo aparte de esta tesis, se ofrece una exposición más detallada del funcionamiento del modelo RDF.

Otros modelos de metadatos

Existen muchas iniciativas y modelos de metadatos aplicables a temas y ámbitos específicos. Podemos destacar el Proyecto SCHEMAS de la Information Society Technologies (IST) de la Unión Europea http://www.schemas-forum.org/, un programa para ayudar a crear y desarrollar esquemas de metadatos estandarizados. Su sección "Metadata Watch" http://www.schemas-forum.org/metadata-watch/ agrupa a desarrolladores de metadatos de sectores académicos y otros sectores como el audiovisual, el de la edición y GIS; el "Government Information Locator Service" (GILS) http://www.gils.net/ que sirve para recuperar la información del gobierno de las agencias federales americanas; el "INDECS data model" http://www.indecs.org/ sobre comercio electrónico, basado en RDF/XML; "ONIX International" http://www.editeur.org/onix.html , un modelo de metadatos para el comercio del libro desarrollado por varias editoriales y que se presenta como un subconjunto del más amplio "EPICS Data Dictionary" y http://www.editeur.org/epics.html que funciona de acuerdo con el "INDECS data model"; la "Data Documentation Initiative" http://www.icpsr.umich.edu/DDI/codebook/, un modelo de metadatos para las ciencias sociales basado en XML; el modelo "Metadata Encoding and Transmission Standard" (METS) http://www.loc.gov/standards/mets/, un modelo para metadatos relativos a objetos que no estén en bibliotecas digitales; la "Visual Resources Association Core Categories Version 3" http://www.vraweb.org/vracore3.htm, un modelo de metadatos para describir fuentes visuales, aunque es mucho más pequeña que el modelo Getty "Categories for the Description of Art" http://www.getty.edu/research/conducting_research/standards/cdwa/index.html. También existen otros proyectos en educación como el IMS Project (Instructional Management Systems) http://www.imsglobal.org/ en el que cooperan escuelas, gobiernos y empresas y que, junto con ARIADNE (Alliance of Remote Instructional Authoring and Distribution) http://www.ariadne-eu.org/, pretende crear un esquema para metadatos sobre educación.

Por ejemplo, ARIADNE propone un esquema de información basado en 6 categorías:

Dentro de ellos, propone unos 25 descriptores y dentro de estos, la IMS propone describir unos 80 elementos jerarquizados.

Otros organismos e instituciones han adaptado el modelo y la estructura TEI a su propio campo, por ejemplo, "Encoded Archival Description" (EAD) o Descripción de archivos codificados en el ámbito de los archivos digitales http://www.loc.gov/ead/; "Computer Interchange of Museum Information" (CIMI) http://www.cimi.org/ para los museos digitales; "Federal Geographic Data Commitee" (FGDC) http://www.fgdc.gov/metadata/metadata.html en el campo de la información digital espacial; y muchos otros proyectos de identificación y localización de recursos web como "The Digital Object Identifier" (DOI) http://www.doi.org/ o "Serial Item and Contribution Identifier Standard" (SICI) http://www.niso.org/standards/resources/Z39-56.pdf utilizan también metadatos.

Los metadatos se basan en normas sobre el valor de los datos que controlan los términos o las palabras que deben completar una estructura de datos o metadatos. Y así, encontramos estándares como listas de autoridad o vocabularios de conceptos (tesauros, listas de materias, glosarios, esquemas, vocabularios RDF o RDF Schemas, y otros metadatos en XML, etc.). También encontramos metadatos basados en materia, esto es, con datos que representan las materias y las interrelaciones con recursos de información que representan estas materias como ontologías, mapas temáticos, y su expresión en XML como topic-maps, metadatos facetados en XFML, etc.

Campo 856 del formato MARC 21: Electronic Location and Access (R). http://lcweb.loc.gov/marc/856guide.html

Las Normas MARC http://www.loc.gov/marc/marc.html, son elaboradas por la Biblioteca del Congreso de EE.UU. y son un estándar mundial para la catalogación de documentos. Prácticamente todos los sistemas comerciales de automatización de bibliotecas que existen en el mercado utilizan el estándar MARC (Machine Readatable Cataloguing). La Biblioteca del Congreso posee un comité llamado Machine-Readatable Bibliographic Information (MARBI) en el que intervienen organismos como la American Library Association (ALA) y otras instituciones relacionadas con el campo de la biblioteconomía y documentación. MARBI tiene la misión de desarrollar el estándar para la representación legible por máquina de la información bibliográfica.

El campo 856 del formato MARC es el campo que se refiere a la localización y acceso del documento dentro de un registro bibliográfico.

La situación del campo 856 dentro de un Registro bibliográfico que usa el formato MARC, se puede observar en la siguiente figura:

Modelo de Registro bibliográfico básico de un documento de Internet
Título propio [Archivo de Internet] / Mención de responsabilidad. -- [Lugar de la institución anfitriona del documento: Nombre de la institución anfitriona del documento, Fecha inicial del documento - ] Nota de localización y acceso (Campo 856) Fuente del título. (Campo 500) Editores u organismos importantes para vines de identificación. (Nota 500) Actualidad de la información. (Nota 500) Actualizaciones del registro. (Nota 500) Requerimientos del sistema. (Nota 500) Resumen. (Nota 520)

Toda la normativa del campo 856 se encuentra en la Guidelines for the Use of Field 856 en http://lcweb.loc.gov/marc/856guide.html. Siguiendo dicha Guía, el campo 856 contiene 2 elementos: indicadores y códigos. Los indicadores y los valores del subcampo $2 (métodos de acceso) se especifican en la norma Uniform Resource Locator URL RFC1738 y su mantenimiento está asignado a la Internet Assigned Numbers Autority (IANA). Los esquemas adicionales son documentados por IANA en URL schemes.

*Primero* (Método de acceso)	*Segundo* (Relaciones)
0 Correo electrónico 1 FTP 2 Acceso remoto (Telnet) 3 Línea telefónica (Dial-up) 4 HTTP 7 Método de acceso, especificado en el subcampo $2	# No definido 0 Fuente 1 Versión de la fuente 2 Fuente relacionada 8 Ningún dispositivo constante de visualización

$a Nombre del Servidor (R)
$b Número de acceso (NR)
$c Información sobre compresión (R)
$d Ruta (R)
$f Nombre del archivo electrónico (R)
$g URN (R)
$h Nombre del usuario solicitante (NR)
$i Intrucciones (R)
$j Bits por segundo (NR)
$k Clave de acceso (NR)
$l Clave de conexión (NR)
$m Contacto para obtener ayuda (R)
$n Localización del servicor indicado en el subcampo $a (NR)
$o Sistema operativo (NR)

$p Puerto (NR)
$q Tipo de formato electrónico
$r Configuración (NR)
$s Tamaño del archivo (R)
$t Emulación de la terminal (R)
$u URL (R)
$v Horario de acceso (R)
$w Número de control del registro relacionado (R)
$x Nota sobre acceso restringido (R)
$z Nota sobre acceso público (R)
$2 Otros métodos de acceso (NR)
$3 Material o parte específica (NR)
$6 Conexión (NR)
$8 Enlace al campo y número de secuencia (NR)

Los elementos más comunes del campo 856 suelen ser el indicador 4 para HTTP, el subcampo $u para la HTTP URL, el subcampo $3 que son los datos que especifican a qué URL se refiere y el subcampo $z que indica si es de acceso público.

El campo 856 recoge, pues, muchísima información, para identificar y localizar el documento y tiene que constar de muchos subcampos ya que existen diferentes métodos de acceso y diferentes formatos de documentos, hay recursos que están en diferentes localizaciones y también nos podemos referir a diferentes partes de una publicación electrónica (tabla de contenido, resumen o abstract, etc). Accediendo a esos subcampos desde otras redes, se puede obtener muchísima información del documento. Por ejemplo, la OCLC ha elaborado la base de datos INTERCAT, que es un Catálogo de recursos de Internet, y que selecciona automáticamente todo los registros que contienen el campo 856 y los asigna un PURL que se registra en la base de datos. Así queda el documento perfectamente descrito y también su localización permanente.

Con el desarrollo del lenguaje XML para la descripción de la estructura de los documentos, se ha desarrollado también el formato MARCXML. De esta forma, se representa un registro MARC completo en XML para representar metadatos y describir recursos originales en sintaxis XML que pueden ser empaquetados con un recurso electrónico con una arquitectura extensible y orientada a los componentes.

<?xml version="1.0" encoding="ISO-8859-1" ?>

<record xmlns="http://www.loc.gov/MARC21/slim" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.loc.gov/MARC21 http://www.loc.gov/standards/marcxml/schema/MARC21.xsd" type="Bibliographic" >
    <leader>00000aam 2200000 a 4500</leader>
    <controlfield tag="001" >REBIUN2557815</controlfield>
    <controlfield tag="008" >980716s19970000sp 000 0 spa</controlfield>
    <datafield tag="017" ind1=" " ind2=" " >
        <subfield code="a" >M. 15.162-1997</subfield>
    </datafield>
    <datafield tag="020" ind1=" " ind2=" " >
        <subfield code="a" >8432127620</subfield>
    </datafield>
    <datafield tag="035" ind1=" " ind2=" " >
        <subfield code="a" >UDE DOBI0000403347</subfield>
    </datafield>
    <datafield tag="040" ind1=" " ind2=" " >
        <subfield code="a" >SpBaP. </subfield>
        <subfield code="c" >SpBaP</subfield>
    </datafield>
    <datafield tag="080" ind1=" " ind2=" " >
        <subfield code="a" >860-3"15"</subfield>
    </datafield>
    <datafield tag="240" ind1=" " ind2="0" >
        <subfield code="a" >Lazarillo de Tormes</subfield>
    </datafield>
    <datafield tag="245" ind1="1" ind2="3" >
        <subfield code="a" >El Lazarillo de Tormes / </subfield>
        <subfield code="c" >Anónimo ; [versión y adaptación Basilio Losada]</subfield>
    </datafield>
    <datafield tag="260" ind1=" " ind2=" " >
        <subfield code="a" >Madrid : </subfield>
        <subfield code="b" >Rialp, </subfield>
        <subfield code="c" >1997</subfield>
    </datafield>
    <datafield tag="300" ind1=" " ind2=" " >
        <subfield code="a" >160 p. ; </subfield>
        <subfield code="c" >21 x 18 cm</subfield>
    </datafield>
    <datafield tag="440" ind1=" " ind2="0" >
        <subfield code="a" >Nuevo Auriga ; </subfield>
        <subfield code="v" >40</subfield>
    </datafield>
    <datafield tag="440" ind1=" " ind2="0" >
        <subfield code="a" >Rialp Junior</subfield>
    </datafield>
    <datafield tag="650" ind1=" " ind2="4" >
        <subfield code="a" >Novela picaresca española-</subfield>
        <subfield code="y" >s.XVI</subfield>
    </datafield>
    <datafield tag="700" ind1="2" ind2="1" >
        <subfield code="a" >Losada Castro, Basilio</subfield>
    </datafield>
</record>

Bibliografía

BURNARD, Lou. LIGHT, Richard. "Three SGML metadata formats: TEI, EAD and CIMI". Work Package 1 of Telematics for Libraries project BIBLINK (LB4034). rev. 14 may 1998. http://www.ukoln.ac.uk/metadata/BIBLINK/wp1/sgml

DAY, Michael. HEERY, Rachel. POWEL, Andy. "National Bibliographic Records in the Digital Information Environment. Metadata, Links and Standards". Journal of Documentation, Vol. 55, No. 1, January 1999. http://www.ukoln.ac.uk/metadata/publications/jdoc-55/

MÉNDEZ RODRÍGUEZ, Eva Mª; MERLO VEGA, José Antonio. Localización, identificación y descripción de documentos web: tentativas hacia la normalización. En VII Jornadas Españolas de Documentación. Bilbao, Universidad del País Vasco, 2000. http://exlibris.usal.es/merlo/escritos/pdf/bilbao2.pdf

World Wide Web Consortium. Resource Description Framework (RDF). http://www.w3.org/RDF/

Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen Autora: María Jesús Lamarca Lapuente (currículo personal) Contacta Tesis doctoral. Universidad Complutense de Madrid URL: http://www.hipertexto.info Fecha de Actualización: 08/12/2013 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb. 34.389 enlaces (10.436 externos y 23.953 internos)	Esta obra está licenciada bajo las siguientes condiciones: Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.
OTRAS PÁGINAS DE LA AUTORA
Blog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ Ageteca. Base de Datos de Gestión Cultural: http://www.agetec.org/ageteca Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es	Blog La artesa digital http://artesadigital.blogspot.com.es Especial Poesía: Hasta allí hemos llegado Flickr La artes@ digital: Galería de fotos mundo digital y mundo analógico: http://www.flickr.com/photos/artesadigital/ Blog Miembras: Usos lingüísticos, políticos y sociales del lenguaje http://miembras.blogspot.com

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores