Metadatos en XML y esquemas

Metadatos en XML y esquemas

María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen.

Aunque la mayoría de los metadatos, en una primera época se incrustaban dentro de los recursos de la Web, codificados en lenguaje HTML, pronto se vio que de esta forma se limitaba la riqueza estructural que, potencialmente, podían aportar los metadatos.

El desarrollo de nuevos lenguajes como XML para la codificación y el intercambio de datos estructurados, junto con las posibilidades que ofrecen los namespaces, ha hecho posible el nacimiento de nuevas capacidades estructurales de las que carecía el lenguaje HTML. XML es un formato que permite el intercambio de bases de datos. Con este lenguaje se puede definir e intercambiar tanto la estructura semántica de las bases de datos, como el contenido, por lo tanto se podría convertir en un lenguaje universal para etiquetar las estructuras de datos. Utilizando espacios de nombre XML es más fácil alcanzar los principios de modularidad y extensibilidad.

La noción de espacios de nombre o namespaces es una parte fundamental de la infraestructura de la Web y, en particular, de XML. Un "namespace" es, simplemente, una colección formal de términos manejados según un algoritmo. Por ejemplo, el protocolo de hipertexto de la Web HTTP, es un "namespace" que garantiza que un identificador de localización URI dado sea único a escala mundial. Por ejemplo, LCSH (Library of Congress Subject Headings o Encabezamiento de Materias de la Biblioteca del Congreso (http://www.loc.gov/cds/lcsh.html) es un "namespace" utilizado por la Biblioteca del Congreso. De la misma forma, cualquier conjunto de elementos de metadatos puede convertirse en un "namespace" establecido según las reglas y convenciones decididas por su agencia de mantenimiento.

Los namespaces en XML ofrecen la infraestructura necesaria para desplegar sistemas modulares de metadatos sobre la Web. Las declaraciones de espacios de nombres permiten, al diseñador de esquemas de metadatos, definir el contexto para un término particular, asegurando así que el término tenga una definición única dentro de los límites del namespace declarado. De esta forma, la declaración de varios espacios de nombre dentro de un bloque de metadatos, permite que los elementos dentro de esos metadatos sean identificados como pertenecientes a uno u otro conjunto de elementos.

Expresado en lenguaje natural, tal declaración podría ser:

El conjunto de elementos Dublin Core Metadata se define en una posición de Web especificada por un URI; todos los elementos Dublín Core en la amplitud de esta declaración de namespace pueden ser reconocidos por el prefijo dc:.
El conjunto de elementos de metadatos IEEE-LOM se define en una posición de Web especificada por un URI; todos los elementos IEEE-LOM en la amplitud de esta declaración namespace pueden ser reconocidos por el prefijo lom:.

Por su parte, RDF o Resource Description Framework desarrollado por el World Wide Web Consortium para la descripción de recursos de la Web provee un mecanismo para integrar múltiples esquemas de metadatos. En RDF un namespace se define apuntando a un recurso web que describe el esquema de metadatos usado en la descripción. Se pueden definir múltiples espacios de nombre, lo que permite que en la descripción de un recurso puedan ser combinados elementos de diferentes esquemas. De esta forma pueden enlazarse a otras múltiples descripciones creadas en diferentes momentos y con propósitos diferentes. Por lo general, RDF utiliza el lenguaje XML. (Aunque el capítulo correspondiente a Resource Description Framework (RDF) o Infraestructura para la descripción de recursos se ha incluido dentro del apartado de lenguajes hipertextuales, por tratarse de un lenguaje para especificar metadatos, es también de obligatoria consulta en esta sección de la tesis).

Otro aspecto importante en la evolución de los metadatos es el concepto de perfil de aplicación. La propia especificación del Esquema XML define un lenguaje de esquema que tiene en cuenta los perfiles de aplicación con el fin de aumentar las perspectivas de interoperabilidad.

Un perfil de aplicación es un conjunto de elementos de metadatos seleccionados de uno o más esquemas de metadatos que, combinados, ofrecen en un esquema compuesto. Los perfiles suministran un medio para expresar los principios de modularidad y extensibilidad. Como ningún conjunto de elementos de metadatos se ajusta plenamente a las exigencias funcionales de todos los usuarios, el objetivo de un perfil es adaptar o combinar esquemas existentes dentro de un paquete que se adapte a las exigencias funcionales de un uso o un usuario o usuarios particulares, conservando la interoperabilidad con los esquemas originales. Dicha adaptación puede incluir la elaboración de los elementos de metadatos locales que tengan importancia para una comunidad concreta o para una organización determinada, pero que pueden no ser importantes en un contexto más amplio.

Una de las ventajas de utilizar perfiles es que las comunidades pueden así ser capaces de aplicar metadatos específicos, a la vez que estos pueden conservarse en arquitecturas de metadatos más amplias. Además, siempre es posible saltarse estos módulos específicos para formar las estructuras de metadatos más complejas conservando la interoperabilidad.

Los esquemas de metadatos más complejos ofrecen una gran riqueza tanto estructural como semántica. EL "IEEE Learning Technology Standards Committee" (LTSC) http://ltsc.ieee.org/wg12/ ofrece un ejemplo de cómo puede lograrse la independencia entre la semántica de los metadatos y su representación sintáctica. LOM es conocido por ser un estándar "multi-parte" donde el modelo de datos semántico es un estándar independiente y luego, cada representación sintáctica, es otro estándar independiente desarrollado como "una encuadernación" específica del estándar del Modelo de Datos LOM.

Pero, más allá de la sintaxis y la semántica, existe otro requisito para la interoperabilidad: la existencia de vocabularios. El uso de un vocabulario específico controlado o namespace estrechará el alcance y aumentará la precisión de una descripción. Los registros guardados en un vocabulario específico asumirán las características de un diccionario que estará disponible para la consulta por:

Lo diseñadores de la aplicación, quienes serán capaces de consultar registros para identificar la existencia de esquemas de metadatos y los componentes del esquema, que podrían encontrar la respuesta a sus necesidades o identificar extensiones para aquel esquema que otros diseñadores de aplicación han desarrollado, o para encontrar una necesidad local determinada.
Los creadores y gerentes de metadatos, quienes puede consultar un registro para averiguar la definición o declaraciones de uso acerca de un elemento o el candidato disponible o preferido, dentro del conjunto de valores que pueden usarse.
Las aplicaciones, que pueden resolver URIs asociados con un esquema, un elemento, o un valor puesto en orden para comparar o evaluar elementos o sus valores en un conjunto de metadatos.
Los usuarios finales, quien podrían consultar un registro para entender mejor las definiciones o el contexto de términos de metadatos, y así mejorar la búsqueda.

Una de las características más importantes de una infraestructura de metadatos es la modularidad, esto es, poder seleccionar elementos ya existentes en un conjunto de elementos de metadatos y aprovechar los avances que se han hecho en cada dominio del conocimiento. No es preciso inventar nuevos conjuntos de metadatos, sino aprovechar los estándares ya existentes para adaptarlos a nuestras necesidades. Además, un esquema o conjunto de metadatos bien formado debe permitir escoger entre distintos niveles de refinamiento dependiendo del nivel de detalle que precisemos.

Hay que tener en cuenta que el refinamiento puede afectar a la interoperabilidad de los datos si no es un estándar muy utilizado, por lo que es mejor utilizar valores de metadatos seleccionados de un vocabulario controlado, lo que permite la interoperabilidad semántica y su uso para un tratamiento automatizado. Por ejemplo, utilizar fechas y tiempos codificados según un estándar puede deshacer la ambigüedad.

Si tenemos una cadena como: 03/02/05 esta fecha se interpreta como "El 2 de marzo de 2005" en Norteamérica y "el 3 de febrero de 2005" en Europa, pero usando un estándar de codificación como la fecha y el tiempo del formato W3C-DTF que se expresa así: YYYY:MM:DD (HH:MM:SS), una fecha puede ser codificada de una manera inequívoca (2002-03-06). La especificación del formato de codificación en metadatos permite un tratamiento mecánico inequívoco por parte de la máquina, y además mejora la comprensión humana.

El empleo de vocabularios controlados es una cuestión muy importante en relación al refinamiento, ya que se puede no sólo mejorar la precisión en las descripciones, sino también impulsar de forma sustancial el acceso a los recursos de un determinado dominio. Por ejemplo, el Sistema de Clasificación Decimal Dewey (DDC), permite un sistema de clasificación multilingüe usado durante muchos años en las bibliotecas tradicionales y puede también aplicarse y usarse con los recursos electrónicos. Hay cientos de tesauros de dominios específicos, sistemas de clasificación y ontologías que también pueden ser importados a la arquitectura de metadatos de la Web para soportar descripciones sustanciales. La especificación del uso de un vocabulario particular en una colección dada de metadatos permitirá a los usuarios una búsqueda más coherente y efectiva.

De esta forma, los distintos modelos de metadatos han elaborado esquemas para expresar tanto la semántica como la sintaxis de los elementos que componen un determinado modelo, y cuyos datos son legibles por máquina de forma automática:

DC schema http://dublincore.org/schemas/
- XMLS Schemas:http://dublincore.org/schemas/xmls/
- RDFs Schemas: http://dublincore.org/schemas/rdfs/
METS schema: http://www.loc.gov/standards/mets/mets.xsd
A-Core: Metadata about Content Metadata http://metadata.net/admin/

Para que dichos esquemas se conviertan en estándares utilizados lo más ampliamente posible, existen diferentes lugares en línea en donde registrarlos. He aquí los principales sitios donde registrar metadatos:

CORES Registry: http://www.cores-eu.net/registry/
DESIRE Metadata Registry: http://desire.ukoln.ac.uk/registry/
Dublin Core registries: http://www.ukoln.ac.uk/metadata/registries/dc/
ROADS Metadata Registry: http://www.ukoln.ac.uk/metadata/roads/templates/
SCHEMAS Metadata Registry: http://www.schemas-forum.org/registry/
SchemaWeb: http://www.schemaweb.info/submit/SubmitSchema.aspx
MEG Registry: http://meg.ukoln.ac.uk/

Uno de los mayores repositorios de esquemas es, sin duda, SchemaWeb: http://www.schemaweb.info que ofrece un directorio de los distintos esquemas e, incluso, un buscador de esquemas.

Otra de las cuestiones importantes a la hora de adoptar arquitecturas de metadatos son los asuntos relativos al multilingüismo de la World Wide Web. Se deben adoptar conjuntos y esquemas de metadatos que respeten la diversidad lingüística y cultural. La Web, al tratarse de un sistema de información global, permite un acceso sin precedentes a los recursos de alcance global. Sin embargo, a no ser que tales recursos puedan disponerse para que los usuarios los recuperen en sus lenguas maternas y con el conjunto de caracteres apropiados, mediante los metadatos apropiados a la dirección de esos recursos, la Web no logrará alcanzar su potencial como un sistema de información global. Las normas de metadatos deben incluir procesos complementarios de internacionalización y localización mediante normas neutras, que se puedan adaptar posteriormente a un estándar no neutro y a un contexto local.

Como se ha afirmado, los últimos desarrollos de metadatos suelen utilizar XML, RDF y esquemas. Por ejemplo, en el campo del comercio electrónico, se ha desarrollado el Universal Data Element Framework (UDEF) http://www.udef.org que incluye una gran variedad de diccionarios que representan el significado semántico, contexto y estructura (en RDF/OWL, schema, DTD y otros formatos). De esta forma, UDEF se convierte en un depósito de distintos formatos todos ellos relacionados con el dominio del e-comercio. Se puede usar el etiquetado UDEF por medio de la aplicación de las ontologías o taxonomías que están disponibles para los usuarios mediante varias vías de acceso (público, por suscripción o privado).

En el comercio electrónico, además del citado UDEF, se utilizan una gran variedad de conjuntos de metadatos como <indecs> interoperability of data in ecommerce systems http://www.indecs.org/ enfocado a los derechos de propiedad intelectual y su transferencia en géneros tan dispares como música, libros, artículos, revistas, etc. y ONIX (Online Information Exchange http://www.editeur.org/onix.html), un estándar internacional basado en XML y desarrollado por varios editores y grupos de la industria del libro americanos y europeos. Existen metadatos en ONIX tanto para libros como para revistas.

Así pues, los estándares en campos concretos del conocimiento, la industria y los negocios, siguen siendo variados. Por ejemplo, en el campo editorial encontramos también un gran número de ejemplos de prácticas de metadatos orientados a libros, entre los que destacan ONIX, CrossRef y Open Archives Initiative.

ONIX utiliza más de 200 elementos de metadatos, algunos opcionales y otros requeridos. Ahora lo publica y mantiene EDItEUR en asociación con el Book Industry Study Group (BISG, http://www.bisg.org en USA) y el Book Industry Communication (BIC, http://www.bic.org.uk/ en el Reino Unido), y se ha convertido en un estándar internacional para metadatos dentro del ámbito del comercio de libros. http://www.editeur.org/onix.html

Los dos ejemplos siguientes, muestran un extracto de la misma parte de un registro en Onix, el primero usando texto plano con los nombres de las referencias en XML, y el segundo usando etiquetas abreviadas:

ejemplo de ONIX

2 Ejemplos de Onix
Fuente: http://www.niso.org/standards/resources/Metadata_Demystified.pdf

CrossRef es un sistema basado en DOI para la identificación persistente de contenido escolar y que permite enlazar referencias al texto completo de una revista. Lo usan muchos editores. El enlace al CrossRef DOIs por el editor responsable de las páginas, que incluye la citación bibliográfica completa y el resumen o abstract. La página del editor responsable a menudo incluye otras opciones de enlaces, tales como pago por visión, tabla de contenidos de la revista y recursos asociados. CrossRef recientemente ha añadido libros y conferencias para ser enlazados en la red. http://www.crossref.org

Después de que un editor deposita un registro, CrossRef registra el par DOI-URL en el directorio central DOI y mantiene el conjunto de metadatos completo en la base de metadatos (MDDB). En un proceso aparte, el editor envía las referencias contenidas en cada artículo depositado en el "Reference Resolver", el componente central del MDDB es el que permite la recuperación de DOIs. Al usar este método, el editor puede, como parte de un proceso de producción electrónica, añadir enlaces externos a alguna referencia del artículo que apunta al contenido ya registrado en el sistema "CrossRef". Si el contenido identificado migra de un sistema de producción a otro (por ejemplo de pre-impresión a post-impresión, o se mueve de un editor a otro, el editor solo precisa actualizar la URL en un lugar para que el DOI persista. El "CrossRef Reference Resolver" acepta metadatos bibliográficos y devuelve el correspondiente DOI.

ejemplo de CrossRef

Ejemplo de CrossRef
Fuente: http://www.niso.org/standards/resources/Metadata_Demystified.pdf

La Open Archives Initiative (OAI) constituye una forma de soportar archivos e-print distribuidos con herramientas para interoperar. Lo usan un gran número de editores para distribuir metadatos de edición. El marco de trabajo OAI se usa para exponer metadatos a través del OAI Protocol for Metadata Harvesting (OAI-PMH) y es independiente del tipo de contenido usado. OAI-PMH define una herramienta de fácil implementación para recolectar metadatos en formato XML desde depósitos de contenido o servidores. http://www.openarchives.org/

Otro campo en el que se han desarrollado recientemente numerosos estándares de metadatos es el referido a las artes. Muchos museos y archivos han desarrollado conjuntos de metadatos propios o utilizan los estándares más extendidos para la descripción de imágenes tales como Categories for the Description of Work of Arts (CDWA), VRA Core, etc. Pero también existen metadatos para XML con pretensiones de convertirse en estándares en casi todos los campos del conocimiento, como el DDI (Data Documentation Initiative) para describir documentación técnica y datos numéricos sobre datos de ciencias sociales http://www.icpsr.umich.edu/DDI/

Ante la gran variedad de esquemas de metadatos existentes, ha sido necesario desarrollar herramientas automáticas que permitan el intercambio de datos entre distintos formatos y esquemas. De esta forma, para la interoperabilidad y el intercambio de metadatos se utilizan los llamados "crosswalk". Un "crosswalk" es un mapeo de los elementos, sintaxis y semántica desde un esquema de metadatos a otro y que permite transferir un esquema a otro. El éxito dependerá de la similaridad de los esquemas, de la granularidad de los elementos y de la compatibilidad de las reglas del contenido y de los elementos de los esquemas comparados.

Fuente: NISO. Understanding metadata.
http://www.niso.org/standards/resources/UnderstandingMetadata.pdf

Bibliografía

BRAND, Amy. DALY, Frank. MEYERS, Barbara. Metadata Demystified: A Guide for Publishers. http://www.niso.org/standards/resources/Metadata_Demystified.pdf

DDI. Data Documentation Initiative. http://www.icpsr.umich.edu/DDI/

CDWA Categories for the Description of Works of Art.
http://www.getty.edu/research/conducting_research/standards/cdwa/

DCMI. DCMI term declarations represented in XML schema language.
http://dublincore.org/schemas/xmls/

DCMI. DCMI term declarations represented in RDF schema language.
http://dublincore.org/schemas/rdfs/

ERCIM. Fourth DELOS Workshop: Image Indexing and Retrieval. San Miniato, Italy, August, 1997. http://www.ercim.org/publication/ws-proceedings/DELOS4/delos4.pdf

J. Paul Getty Trust. Categories for the description of works of Art (CDWA): List of Categories and Definitions. http://www.getty.edu/research/conducting_research/standards/cdwa/8_printing_options/definitions.pdf

IEEE WG12: Learning Object Metadata. http://ltsc.ieee.org/wg12/

International Journal of Metadata, Semantics and Ontologies (IJMSO)
http://www.inderscience.com/ijmso

LOM. Learning Objects Metadata. http://ltsc.ieee.org/wg12/

LON. Learning Objects Network. http://www.learningobjectsnetwork.com

LOUGHBOROUGH, William. Order from Chaos. http://rdf.pair.com/

MÉNDEZ RODRÍGUEZ, Eva. Metadatos y recuperación de la información: estándares, problemas y aplicabilidad en bibliotecas digitales. Gijón, Trea, 2002.

NISO. Understanding metadata.
http://www.niso.org/standards/resources/UnderstandingMetadata.pdf

Schemas Home Page: Forum for Metadata Shema Implementers.
http://www.schemas-forum.org/

SchemaWeb. http://www.schemaweb.info/

ONIX. Online Information Exchange. http://www.editeur.org/onix.html

OAI. Open Archives Initiative. http://www.openarchives.org/

UDEF. Universal Data Element Framework. http://www.udef.org

UKOLN. Metadata. http://www.ukoln.ac.uk/metadata/

W3C. RDF Primer. http://www.w3.org/TR/rdf-primer/

W3C. RDF Vocabulary Description Language 1.0: RDF Schema.
http://www.w3.org/TR/rdf-schema/

W3C. XLM Schema. http://www.w3.org/XML/Schema

Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen Autora: María Jesús Lamarca Lapuente (currículo personal) Contacta Tesis doctoral. Universidad Complutense de Madrid URL: http://www.hipertexto.info Fecha de Actualización: 08/12/2013 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb. 34.389 enlaces (10.436 externos y 23.953 internos)	Esta obra está licenciada bajo las siguientes condiciones: Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.
OTRAS PÁGINAS DE LA AUTORA
Blog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ Ageteca. Base de Datos de Gestión Cultural: http://www.agetec.org/ageteca Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es	Blog La artesa digital http://artesadigital.blogspot.com.es Especial Poesía: Hasta allí hemos llegado Flickr La artes@ digital: Galería de fotos mundo digital y mundo analógico: http://www.flickr.com/photos/artesadigital/ Blog Miembras: Usos lingüísticos, políticos y sociales del lenguaje http://miembras.blogspot.com

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores