Aunque la mayoría de
los metadatos, en una primera época se incrustaban dentro de los recursos de la
Web,
codificados en lenguaje HTML, pronto se vio que de
esta forma se limitaba la riqueza estructural que, potencialmente, podían
aportar los metadatos.
El desarrollo de nuevos
lenguajes como
XML para la codificación y el intercambio de datos estructurados,
junto con las posibilidades que ofrecen los namespaces,
ha hecho posible el nacimiento de nuevas capacidades
estructurales de las que carecía el lenguaje HTML.
XML es un formato que permite el intercambio de
bases de datos. Con este lenguaje se puede definir e intercambiar tanto
la estructura semántica de las
bases de datos, como el contenido, por lo
tanto se podría convertir en un lenguaje universal para etiquetar las
estructuras de datos. Utilizando
espacios de nombre
XML es más fácil alcanzar
los principios de modularidad y extensibilidad.
La noción de
espacios de nombre o namespaces es una parte
fundamental de la infraestructura de la Web y, en particular, de
XML. Un "namespace" es, simplemente, una colección formal de términos manejados según
un algoritmo. Por ejemplo, el protocolo de
hipertexto de la Web HTTP,
es un "namespace" que garantiza que un identificador de
localización URI dado sea único a escala mundial. Por ejemplo,
LCSH (Library of
Congress Subject Headings o Encabezamiento de Materias de la Biblioteca del
Congreso (http://www.loc.gov/cds/lcsh.html) es un
"namespace" utilizado
por la Biblioteca del Congreso.
De la misma forma, cualquier
conjunto
de elementos de metadatos puede convertirse en un "namespace" establecido según las reglas y convenciones
decididas por su agencia de mantenimiento.
Los
namespaces en
XML
ofrecen la infraestructura necesaria
para desplegar sistemas modulares de metadatos sobre la Web. Las declaraciones
de espacios de nombres
permiten, al diseñador de esquemas de metadatos, definir el contexto para un término
particular, asegurando así que el término tenga una definición única dentro
de los límites del namespace declarado. De esta forma, la declaración de varios
espacios de nombre dentro de un bloque de metadatos, permite
que los elementos dentro de esos metadatos sean identificados como pertenecientes a uno
u otro
conjunto de elementos.
Expresado en lenguaje natural, tal
declaración podría ser:
-
El
conjunto de elementos Dublin Core Metadata se define en una posición de Web
especificada por un URI; todos los elementos Dublín Core en la amplitud de esta
declaración de namespace pueden ser reconocidos por el prefijo
dc:.
-
El
conjunto de elementos de metadatos IEEE-LOM se define en una posición de Web
especificada por un
URI; todos los elementos IEEE-LOM en la amplitud de esta
declaración namespace pueden ser reconocidos por el prefijo
lom:.
Por su parte,
RDF o Resource Description
Framework desarrollado por el
World Wide Web Consortium para la descripción
de recursos de la Web provee un mecanismo para integrar múltiples esquemas
de metadatos. En RDF un
namespace se define apuntando a un recurso
web
que describe el esquema de metadatos usado en la descripción. Se pueden definir
múltiples espacios de nombre, lo que permite que en la descripción de un recurso
puedan ser combinados elementos de diferentes esquemas. De esta forma pueden
enlazarse a otras múltiples descripciones creadas en diferentes momentos y con
propósitos diferentes. Por lo general, RDF utiliza el lenguaje
XML. (Aunque el capítulo correspondiente a
Resource Description Framework (RDF) o Infraestructura para
la descripción de recursos se ha incluido dentro del apartado de
lenguajes
hipertextuales, por tratarse de un lenguaje para especificar metadatos, es
también de obligatoria consulta en esta sección de la tesis).
Otro aspecto importante en la evolución
de los metadatos es el concepto de perfil de aplicación. La
propia especificación del
Esquema XML define un lenguaje de esquema que tiene en cuenta los
perfiles de aplicación con el fin de aumentar las perspectivas de
interoperabilidad.
Un perfil de aplicación es un
conjunto de
elementos de metadatos seleccionados de uno o más esquemas de metadatos que,
combinados, ofrecen en
un esquema compuesto. Los perfiles suministran un medio
para expresar
los principios de modularidad y extensibilidad. Como ningún conjunto de
elementos de metadatos se ajusta plenamente a las exigencias funcionales de todos los
usuarios, el objetivo de un perfil es adaptar o combinar esquemas existentes
dentro de un paquete que se
adapte a las exigencias funcionales de un uso o un usuario o usuarios particulares, conservando la
interoperabilidad con los esquemas originales. Dicha adaptación
puede incluir la elaboración de los elementos de metadatos locales que tengan importancia
para una comunidad concreta o para una organización determinada, pero que pueden no
ser importantes en un contexto más amplio.
Una de las ventajas de
utilizar perfiles es
que las comunidades pueden así ser capaces de aplicar metadatos específicos, a
la vez que estos pueden
conservarse en arquitecturas de metadatos más amplias. Además, siempre es
posible saltarse estos módulos específicos para formar las estructuras de metadatos más complejas
conservando la interoperabilidad.
Los esquemas de metadatos
más complejos ofrecen una gran riqueza tanto estructural como semántica.
EL "IEEE Learning Technology Standards Committee" (LTSC) http://ltsc.ieee.org/wg12/ ofrece un ejemplo de cómo puede lograrse la
independencia entre la semántica de los metadatos y su representación
sintáctica. LOM es conocido por ser un estándar
"multi-parte" donde el modelo de datos semántico es un estándar
independiente y luego, cada representación sintáctica, es otro estándar
independiente desarrollado como "una encuadernación" específica del
estándar del Modelo de Datos LOM.
Pero, más allá de la sintaxis
y la semántica, existe otro requisito para la interoperabilidad: la existencia
de vocabularios. El
uso de un vocabulario específico controlado o namespace estrechará el
alcance y aumentará la precisión de una descripción. Los registros guardados en
un vocabulario específico asumirán las características de un diccionario que
estará disponible para la consulta por:
-
Lo diseñadores
de la aplicación, quienes serán capaces de consultar registros para identificar
la existencia de esquemas de metadatos y los componentes del esquema, que podrían
encontrar la respuesta a sus necesidades o identificar extensiones para aquel esquema que
otros diseñadores de aplicación han desarrollado, o para encontrar una
necesidad local determinada.
-
Los creadores y
gerentes de metadatos, quienes puede consultar un registro para averiguar
la definición o declaraciones de uso acerca de un elemento o el candidato
disponible o preferido, dentro del conjunto de valores que pueden usarse.
-
Las
aplicaciones,
que pueden resolver URIs asociados con un esquema, un elemento, o un valor
puesto en orden para comparar o evaluar elementos o sus valores en un
conjunto
de metadatos.
-
Los
usuarios finales, quien podrían consultar un registro para entender mejor
las
definiciones o el contexto de términos de metadatos, y así
mejorar la búsqueda.
Una de las características
más importantes de una infraestructura de metadatos es la modularidad, esto es,
poder seleccionar elementos ya existentes en un conjunto de elementos de
metadatos y aprovechar los avances que se han hecho en cada dominio del
conocimiento. No es preciso inventar nuevos conjuntos de metadatos, sino aprovechar
los estándares ya existentes para adaptarlos a nuestras necesidades.
Además, un esquema o conjunto de metadatos bien formado debe permitir escoger
entre distintos niveles de refinamiento dependiendo del nivel de detalle que
precisemos.
Hay que tener en cuenta que
el refinamiento puede afectar a la interoperabilidad de los datos si no es un
estándar muy utilizado, por lo que es mejor utilizar valores de metadatos
seleccionados de un vocabulario controlado, lo que permite la interoperabilidad
semántica y su uso para un tratamiento automatizado. Por ejemplo, utilizar fechas
y tiempos codificados según un estándar puede deshacer la ambigüedad.
Si tenemos
una cadena como: 03/02/05 esta fecha
se interpreta como "El 2 de marzo de 2005" en Norteamérica y "el 3 de febrero de
2005" en Europa, pero usando un estándar de codificación
como la fecha y el tiempo del formato
W3C-DTF que se
expresa así: YYYY:MM:DD (HH:MM:SS),
una fecha puede ser codificada de una manera inequívoca (2002-03-06).
La especificación del formato de codificación en metadatos permite un tratamiento
mecánico inequívoco por parte de la máquina, y además mejora la comprensión
humana.
El empleo de vocabularios controlados es
una
cuestión muy importante en relación al refinamiento, ya que se puede no sólo mejorar la precisión
en las
descripciones, sino también impulsar de forma sustancial el acceso a los recursos de un determinado dominio. Por ejemplo, el
Sistema de Clasificación Decimal Dewey (DDC), permite un sistema de clasificación
multilingüe usado durante muchos años en las bibliotecas tradicionales y puede
también aplicarse y usarse con los recursos electrónicos. Hay cientos de
tesauros
de dominios específicos, sistemas de clasificación y
ontologías que también pueden ser
importados a la arquitectura de metadatos de la Web para soportar descripciones
sustanciales. La especificación del uso de un vocabulario particular en una
colección dada de metadatos permitirá a los usuarios
una búsqueda más coherente y efectiva.
De esta forma, los distintos
modelos de metadatos han
elaborado esquemas para expresar tanto la semántica como la sintaxis de los
elementos que componen un determinado modelo, y cuyos datos son legibles por
máquina de forma automática:
Para que dichos esquemas se conviertan en
estándares utilizados lo más ampliamente posible, existen diferentes
lugares en línea en donde registrarlos. He
aquí los principales sitios donde registrar metadatos:
Uno de los mayores
repositorios de esquemas es, sin duda,
SchemaWeb:
http://www.schemaweb.info que ofrece un
directorio de los distintos esquemas
e, incluso, un
buscador de esquemas.
Otra de las
cuestiones importantes a la hora de adoptar arquitecturas
de metadatos son los asuntos relativos al multilingüismo
de la World Wide Web. Se deben adoptar conjuntos y
esquemas de metadatos que respeten la diversidad lingüística y cultural. La
Web, al
tratarse de un
sistema de información global, permite un
acceso sin precedentes a los recursos de alcance global. Sin embargo, a no ser
que tales recursos puedan disponerse para que los
usuarios los recuperen en sus lenguas
maternas y con el conjunto de caracteres apropiados, mediante los metadatos apropiados a la
dirección de esos recursos, la Web no logrará alcanzar su potencial como un
sistema de información global. Las normas de metadatos deben incluir procesos
complementarios de internacionalización y localización mediante normas neutras, que se puedan adaptar posteriormente
a un estándar no neutro y a un contexto local.
Como se ha afirmado, los últimos
desarrollos de metadatos suelen utilizar XML,
RDF y esquemas. Por
ejemplo, en el campo del comercio electrónico, se ha desarrollado el
Universal Data Element Framework (UDEF)
http://www.udef.org
que incluye una gran variedad de diccionarios que representan el
significado semántico, contexto y estructura (en RDF/OWL,
schema, DTD y otros formatos). De esta
forma, UDEF se convierte en un depósito de distintos formatos todos
ellos relacionados con el dominio del e-comercio. Se puede usar el
etiquetado UDEF por medio de la aplicación de las
ontologías o taxonomías que están disponibles para
los usuarios mediante varias vías de acceso
(público, por suscripción o privado).
En el comercio electrónico, además del citado UDEF, se
utilizan una gran variedad de conjuntos de metadatos como <indecs>
interoperability of data in ecommerce systems http://www.indecs.org/ enfocado a los derechos de propiedad intelectual y su transferencia en
géneros tan dispares como música, libros, artículos, revistas, etc. y ONIX (Online
Information Exchange
http://www.editeur.org/onix.html),
un estándar internacional basado en XML y desarrollado por varios editores y
grupos de la industria del libro americanos y europeos. Existen metadatos en
ONIX tanto para libros como para revistas.
Así pues, los estándares en campos concretos del
conocimiento, la industria y los negocios, siguen siendo variados. Por ejemplo,
en el campo editorial encontramos también un gran número de ejemplos de prácticas de metadatos orientados a libros,
entre los que destacan ONIX, CrossRef y Open Archives Initiative.
ONIX utiliza más de 200 elementos de metadatos,
algunos opcionales y otros requeridos. Ahora lo publica y mantiene EDItEUR en asociación con el
Book Industry Study Group (BISG,
http://www.bisg.org
en USA) y el Book Industry Communication (BIC,
http://www.bic.org.uk/ en el Reino Unido),
y se ha convertido en un estándar internacional para metadatos dentro del ámbito
del comercio de libros. http://www.editeur.org/onix.html
Los dos ejemplos siguientes, muestran un extracto de
la misma parte de un registro en Onix, el primero usando texto plano con los
nombres de las referencias en XML, y el segundo
usando etiquetas abreviadas:
2 Ejemplos de Onix
Fuente:
http://www.niso.org/standards/resources/Metadata_Demystified.pdf
CrossRef es un sistema basado en
DOI para la
identificación persistente de contenido escolar y que permite enlazar
referencias al texto completo de una revista. Lo usan muchos editores. El enlace
al CrossRef DOIs por el editor responsable de las páginas, que incluye la
citación bibliográfica completa y el resumen o abstract. La página del
editor responsable a menudo incluye otras opciones de enlaces, tales como pago por visión,
tabla de contenidos de la revista y recursos asociados. CrossRef recientemente
ha añadido libros y conferencias para ser enlazados en la red.
http://www.crossref.org
Después de que un editor deposita un registro, CrossRef registra el par DOI-URL
en el directorio central DOI y mantiene el conjunto de metadatos completo en la
base de metadatos (MDDB). En un proceso aparte, el editor envía las referencias
contenidas en cada artículo depositado en el "Reference Resolver", el
componente central del MDDB es el que permite la recuperación de
DOIs. Al usar
este método, el editor puede, como parte de un proceso de producción
electrónica, añadir enlaces externos a alguna referencia del artículo que apunta
al contenido ya registrado en el sistema "CrossRef". Si el contenido identificado migra de
un sistema de producción a otro (por ejemplo de pre-impresión a post-impresión, o
se mueve de un editor a otro, el editor solo precisa actualizar la
URL en un
lugar para que el DOI persista. El "CrossRef
Reference Resolver" acepta metadatos bibliográficos y
devuelve el correspondiente DOI.
Ejemplo de CrossRef
Fuente:
http://www.niso.org/standards/resources/Metadata_Demystified.pdf
La Open Archives Initiative (OAI) constituye una forma
de soportar archivos e-print distribuidos con herramientas para
interoperar. Lo usan un gran número de editores para distribuir metadatos de edición. El marco de trabajo OAI se usa para exponer
metadatos a través del OAI Protocol for Metadata Harvesting (OAI-PMH) y
es independiente del tipo de contenido usado. OAI-PMH define una herramienta de
fácil implementación para recolectar metadatos en formato XML desde
depósitos de contenido o servidores.
http://www.openarchives.org/
Otro campo en el que se han desarrollado recientemente
numerosos estándares de metadatos es el referido a las artes. Muchos museos y
archivos han desarrollado conjuntos de metadatos propios o utilizan los
estándares más extendidos para la descripción de
imágenes tales como
Categories for the Description of Work of Arts (CDWA),
VRA Core, etc.
Pero también existen metadatos para XML con pretensiones de convertirse en
estándares en casi todos los campos del conocimiento, como el DDI (Data
Documentation Initiative) para describir documentación técnica y datos
numéricos sobre datos de ciencias sociales http://www.icpsr.umich.edu/DDI/
Ante la gran variedad de esquemas de metadatos existentes, ha
sido necesario desarrollar herramientas automáticas que permitan el intercambio
de datos entre distintos formatos y esquemas. De esta forma, para la interoperabilidad y el
intercambio de metadatos se utilizan los llamados "crosswalk". Un "crosswalk" es un mapeo de los elementos, sintaxis y semántica desde un
esquema de metadatos a otro y que permite transferir un esquema a
otro. El éxito dependerá de la similaridad de los esquemas, de la granularidad de los
elementos y de la compatibilidad de las reglas del contenido y de los elementos de
los esquemas comparados.
Fuente: NISO. Understanding metadata.
http://www.niso.org/standards/resources/UnderstandingMetadata.pdf
Bibliografía
BRAND, Amy. DALY, Frank. MEYERS,
Barbara. Metadata Demystified: A Guide for Publishers.
http://www.niso.org/standards/resources/Metadata_Demystified.pdf
DDI.
Data Documentation Initiative.
http://www.icpsr.umich.edu/DDI/
CDWA
Categories for the Description of Works of Art.
http://www.getty.edu/research/conducting_research/standards/cdwa/
DCMI.
DCMI term declarations represented in XML schema language.
http://dublincore.org/schemas/xmls/
DCMI.
DCMI term declarations represented in RDF schema language.
http://dublincore.org/schemas/rdfs/
ERCIM. Fourth DELOS Workshop: Image
Indexing and Retrieval. San Miniato, Italy, August, 1997.
http://www.ercim.org/publication/ws-proceedings/DELOS4/delos4.pdf
J. Paul Getty Trust.
Categories for the description of works of Art (CDWA): List of Categories and
Definitions.
http://www.getty.edu/research/conducting_research/standards/cdwa/8_printing_options/definitions.pdf
IEEE
WG12: Learning Object Metadata.
http://ltsc.ieee.org/wg12/
International Journal of Metadata, Semantics and Ontologies (IJMSO)
http://www.inderscience.com/ijmso
LOM.
Learning Objects Metadata.
http://ltsc.ieee.org/wg12/
LON.
Learning Objects Network.
http://www.learningobjectsnetwork.com
LOUGHBOROUGH, William. Order from Chaos.
http://rdf.pair.com/
MÉNDEZ RODRÍGUEZ,
Eva. Metadatos y recuperación de la
información: estándares, problemas
y aplicabilidad en bibliotecas digitales.
Gijón, Trea, 2002.
NISO. Understanding metadata.
http://www.niso.org/standards/resources/UnderstandingMetadata.pdf
Schemas
Home Page: Forum for Metadata Shema Implementers.
http://www.schemas-forum.org/
SchemaWeb.
http://www.schemaweb.info/
ONIX.
Online Information Exchange.
http://www.editeur.org/onix.html
OAI. Open Archives Initiative.
http://www.openarchives.org/
UDEF. Universal Data Element Framework.
http://www.udef.org
UKOLN.
Metadata.
http://www.ukoln.ac.uk/metadata/
W3C. RDF Primer.
http://www.w3.org/TR/rdf-primer/
W3C.
RDF Vocabulary Description Language 1.0: RDF Schema.
http://www.w3.org/TR/rdf-schema/
W3C.
XLM Schema.
http://www.w3.org/XML/Schema
|