|


La mayoría de
los metadatos están incrustados dentro de los recursos de la Web. Esto
limita la riqueza estructural de los metadatos que pueden ser aplicados,
pero tiene una gran virtud que es la simplicidad. La World
Wide Web ofrece un
sistema que es añadir los metadatos en forma de metaetiquetas HTML
y, con los editores actuales,
cualquier persona puede crear una página web y añadir las etiquetas meta
de forma sencilla. En realidad, el marcado es, en sí mismo una forma de
metadatos y todos los lenguajes de marcado
permiten la inclusión de marcas o etiquetas de metadatos, desde el muy
sofisticado y rico XML, variante del estándar
SGML, hasta el más simple HTML.
Pero si queremos crear páginas web con propósito general y
únicamente para facilitar la búsqueda y recuperación
de nuestros documentos, no es necesario utilizar un lenguaje muy
estructurado ni un sistema muy sofisticado
de metadatos, basta con utilizar las etiquetas
<META> que pueden ser
embebidas dentro del propio documento creado en lenguaje HTML. Caso bien
distinto es si pretendemos crear un sistema de información bien estructurado
pues, en este caso, sí es necesario utilizar otros sistemas de metadatos y
otros lenguajes más elaborados y estructurados.
No hace falta ser un usuario avezado para saber que si
creamos una página web y queremos tener presencia en
Internet,
debemos incluir información por medio de etiquetas o metatags
para que los robots que sustentan a los
buscadores o
índices puedan
indizar nuestras páginas. El
acceso a una web a través de Internet es muy fácil de encontrar cuando se trata
de webs de instituciones o empresas que poseen una dirección que coincide con el
nombre de la institución o de la empresa. Sin embargo, la mayor parte de las páginas
poseen una URL que nada tiene que ver con su nombre o contenido y más aún cuando
se trata de páginas que ocupan un tercer o cuarto nivel.
Para que las páginas puedan ser encontradas por otros usuarios,
es preciso no sólo dar de alta la web en los principales
buscadores, sino también introducir metadatos o texto descriptivo en las páginas a través de etiquetas
(metatags) que indiquen información sobre el contenido, materia, autor, etc. para que esta
información pueda ser extraída de forma automática por los principales
robots,
bases de datos e indizadores automáticos de páginas
web que existen en
Internet.
El
lenguaje HTML era, en principio un lenguaje semántico que se convirtió en
lenguaje de formato, puesto que elementos como los encabezados indicaban no sólo
la importancia de un texto marcado con caracteres de un primer nivel, sino
también la forma y tipografía de los títulos y encabezamientos.
La sintaxis para asignar
metainformación en lenguaje HTML se basa en las etiquetas
<META>. Los principales
robots y agentes que indizan de forma
automática, cuentan con la posibilidad de búsquedas avanzadas a través de la
etiqueta: <META> y, aunque las funciones de las etiquetas meta son
muy variadas, cabe destacar además de las etiquetas básicas que ofrece el
estándar Dublin Core, dos etiquetas
principalmente: "description" y "keywords".
La etiqueta description ofrece al robot
la
información general sobre la página: de qué trata, qué tipo de información
contiene, qué institución u organización es la responsable, etc.
<META name="description" content="Esta es la descripción general de la página"> Por su parte, las keywords son las palabras
clave o descriptores del contenido de la página. Podemos utilizar un lenguaje
libre, pero si queremos ser más rigurosos en la descripción, podremos utilizar
una lista de materias o, incluso, un tesauro.
<META name="keywords" content="Palabras clave separadas por comas">
Las
palabras clave y la descripción deben introducirse en la lengua elegida y,
aunque los principales
robots suelen indizar las páginas por su título y contenido en
inglés, ya existen muchos buscadores que
indizan el
castellano y otras lenguas para facilitar su recuperación en estos idiomas.
Sin embargo, hay otra forma de incluir metadatos en HTML es
cumplir con los estándares de la especificación elaborada por el
World Wide Web Consortium (W3C). En dicha
especificación, se denomina metadatos a la "información sobre el documento en lugar del
contenido del documento".
La Especificación
HTML 4.01 (HTML 4.01 Specification)
se convirtió en Recomendación del W3C el 24 de diciembre de 1999
http://www.w3.org/TR/html401/. Una traducción al castellano de dicho
documento puede encontrase en
http://html.conclase.net/w3c/html401-es/cover.html
El capítulo 7 de la Especificación trata de la
estructura global de un documento HTML y cuenta con una sección específicamente
dedicada a los metadatos. Sección 7.4.4
Metadatos
http://www.w3.org/TR/html401/struct/global.html#h-7.4.4
En ella se afirma que el
lenguaje HTML permite a los autores especificar metadatos. Por
ejemplo, para especificar el autor de un documento, puede utilizarse el elemento
META como sigue:
<META name="Author" content="Dave Raggett">
El
elemento
<META> especifica una propiedad (en
este caso
"Author") y le asigna un valor (en este ejemplo "Dave Raggett").
El significado de una propiedad y el conjunto de valores para esa propiedad
debería estar definida en un diccionario de referencia denominado perfil.
Por ejemplo, un perfil diseñado para ayudar a los motores de búsqueda a indexar
documentos podría definir propiedades tales como "author", "copyright",
"keywords", etc.
Un ejemplo
de perfil es el modelo de metadatos Dublin Core.
Cada perfil define un conjunto de propiedades recomendadas para descripciones
bibliográficas electrónicas y su objetivo es promover la interoperabilidad
entre modelos descriptivos dispares.
En
general, la especificación de metadatos implica dos pasos:
- Declaración de una propiedad y de un valor para esta propiedad.
Esto puede hacerse de dos maneras:
-
desde
dentro de un documento, por medio del elemento
<META>.
-
desde
fuera de un documento, vinculando los metadatos por medio del elemento
<LINK> en el
<HEAD>..
- Referencia a un perfil
en el que se definen la propiedad y sus valores legales. Para designar un
perfil, se usa el atributo
profile del elemento
HEAD.
Para
los siguientes atributos, los valores permitidos y su interpretación dependen
del
perfil:
-
name = name: Este
atributo identifica un nombre de propiedad. Esta especificación no enumera los
valores legales para este atributo.
-
content =
cdata: Este
atributo especifica el valor de una propiedad. Esta especificación no enumera
los valores legales para este atributo.
-
scheme =
cdata: Este
atributo especifica un esquema que se usará para interpretar el valor de la
propiedad.
-
http-equiv
= name: Este
atributo puede utilizarse en lugar del atributo
name.
Los servidores HTTP utilizan este atributo para obtener información sobre los
encabezados del mensaje de respuesta HTTP
Otros atributos son:
El encabezado de un documento HTML especificado en la cabecera o
HEAD es el que contiene, generalmente,
información o metainformación acerca del documento. En ella se sitúan los
elementos <META> y
<LINK>.
El elemento
<META> contiene la metainformación y el
elemento <LINK> define las relaciones entre ese documento y otros (de esta forma
se puede enlazar también el documento con otro archivo que contenga la metainformación
específica). Un documento puede tener varios elementos
<LINK>.
En realidad, tanto la función que realiza el elemento <LINK>
en lenguaje HTML como la función realizada mediante la
asignación de un perfil, son similares a la función que realizan los espacios de
nombre (namespaces) en XML y
RDF
Ejemplo de HEAD:
<HTML>
<HEAD>
<TITLE> Hipertexto:el nuevo concepto de documento en la
cultura de la imagen </TITLE>
<BASE HREF="http://www.hipertexto.info/documento.html">
<LINK HREF="http://www.hipertexto.info/documento/index.html" REL="index">
</HEAD>
<BODY>
..... texto del documento
</BODY>
</HTML>
El
elemento
<META> puede utilizarse para identificar propiedades de
un documento (por ejemplo el autor, la fecha de caducidad, una lista de palabras
clave, etc.) y para asignar valores a esas propiedades. La especificación no
define un conjunto normativo de propiedades, pero ofrece algunos ejemplos como
los que se ofrecen a continuación.
Cada
elemento
<META> especifica una pareja propiedad/valor.
Los principales atributos son: NAME, CONTENT, SCHEME y HTTP-EQUIV.
El atributo
name identifica la propiedad y
el atributo
content especifica el valor de la propiedad. Por
ejemplo, la siguiente declaración establece un valor para la propiedad
Author:
<META name="Author" content="María Jesús Lamarca Lapuente">
Puede
utilizarse el atributo
lang de
<META> para especificar el idioma del valor del atributo
content. Esto permite a los sintetizadores de voz
aplicar reglas de pronunciación dependientes del idioma.
En
este ejemplo, se declara que el nombre del autor está en francés:
<META name="Author" lang="fr" content="Arnaud Le Hors">
Cuando una
propiedad especificada mediante un elemento
<META>
toma un valor que es un
URI,
algunos autores prefieren
especificar los metadatos mediante el elemento
<LINK>. Así, la siguiente declaración de metadatos:
<META name="DC.identifier"
content="http://www.ietf.org/rfc/rfc1866.txt">
también
podría haberse escrito así:
<LINK rel="DC.identifier"
type="text/plain"
href="http://www.ietf.org/rfc/rfc1866.txt">
El elemento
<META> es un mecanismo genérico para la especificación
de metadatos. Sin embargo, hay algunos elementos y atributos HTML que ya manejan
determinados metadatos y que pueden ser utilizados por los autores en lugar de
<META> para especificar dichos metadatos,
como por ejemplo el elemento
<TITLE>, el elemento
<ADDRESS>, los elementos
<INS> y
<DEL>, el atributo
title, y el atributo
cite. (Y lo mismo
ocurre con los elementos de metadatos del modelo Dublin Core).
Un
uso común de
<META> es especificar palabras clave que pueden usar los
motores
de búsqueda para mejorar la calidad de los resultados de una búsqueda.
Cuando se proporcionen varios elementos
<META>
con información para varios idiomas,
motores
de búsqueda pueden utilizar el atributo
lang como filtro para mostrar los resultados de la búsqueda
usando las preferencias de idioma del usuario. Por ejemplo,
<!-- Para hablantes de inglés americano -->
<META name="keywords" lang="en-us"
content="vacation, Greece, sunshine">
<!-- Para hablantes de inglés británico -->
<META name="keywords" lang="en"
content="holiday, Greece, sunshine">
<!-- Para hablantes de español -->
<META name="keywords" lang="es"
content="vacaciones, Grecia, sol">
También
puede incrementarse la efectividad de los
motores
de búsqueda usando el
elemento
<LINK> para especificar
vínculos a traducciones del
documento en otros idiomas, vínculos a versiones del documento en otros medios
(por ejemplo, PDF) y, cuando el documento es parte de una colección,
vínculos a un
punto apropiado de partida para examinar la colección completa.
En
cuanto a los perfiles de metadatos, el atributo
profile de
HEAD especifica la localización de un perfil
de metadatos. El valor del atributo
profile es un
URI. Los agentes de usuario pueden
utilizar este
URI de dos maneras:
-
Como un nombre único a nivel global. Los agentes de usuario pueden
ser capaces de reconocer el nombre (sin necesidad de obtener el perfil) y
realizar alguna acción según las convenciones conocidas relativas a ese
perfil. Por ejemplo, los motores de búsqueda podrían proporcionar una
interfaz para búsqueda en catálogos de documentos HTML, de modo que todos
los documentos podrían usar el mismo perfil para representar entradas de un
catálogo.
-
Como un vínculo. Los agentes de usuario pueden seguir el
URI y
realizar alguna acción según las definiciones contenidas en el perfil
(p.ej., autorizar el uso del perfil dentro del documento HTML actual).
El siguiente ejemplo,
ofrecido por la Especificación, hace referencia a un perfil hipotético que define propiedades útiles
para indexar documentos. A las propiedades definidas en este perfil -incluyendo "author", "copyright", "keywords"
(palabras clave) y "date" (fecha) -se les asignan valores mediante
declaraciones
<META> subsiguientes.
<HEAD profile="http://www.acme.com/profiles/core">
<TITLE>Cómo completar portadas de Memoranda</TITLE>
<META name="author" content="José Pérez">
<META name="copyright" content="© 1997 Acme Corp.">
<META name="keywords" content="empresarial,instrucciones,catálogos">
<META name="date" content="1994-11-06T08:49:37+00:00">
</HEAD>
El
atributo
scheme permite proporcionar a los agentes
de usuario más contexto para la interpretación
correcta de los metadatos. A veces, esta información adicional puede ser crítica,
por ejemplo cuando los metadatos pueden ser especificados según formatos
diferentes. Por ejemplo, un autor podría especificar una fecha en el formato
ambiguo "10-9-97"; ¿significa esto 9 de octubre de 1997 o 10 de
septiembre de 1997? El valor "Mes-Día-Año" para el atributo
scheme eliminaría la ambigüedad de este valor de
fecha. En
otras ocasiones, el atributo
scheme puede proporcionar información útil aunque no
crítica.
Por
ejemplo, la siguiente declaración
scheme podría ayudar a un agente de usuario a
determinar que el valor de la propiedad "identificador" es un número
de código ISBN:
<META scheme="ISBN" name="identificador" content="0-8230-2355-9">
Los
valores del atributo
scheme dependen de la propiedad
name y del
profile asociado.
En suma, el atributo
scheme
sirve para denominar el esquema que se
debe utilizar para interpretar el valor de una propiedad.
Por último, el atributo HTTP-EQUIV que se utiliza
en lugar de name, permite que los servidores que
funcionan con el protocolo de transferencia de
hipertexto (HTTP), recopilen la información para ofrecer los encabezados del
mensaje de respuesta:
<META
http-equiv="Expires" content="27 Oct 2004 08:00:00 GMT">
De esta forma se indica cuándo debe actualizarse (refrescarse) el documento
almacenado en la memoria caché, aunque también posee otros usos.
A continuación se
muestra el uso de etiquetas <META> incrustadas en la cabecera de la página
actual de esta tesis:
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<meta name="GENERATOR" content="Microsoft FrontPage 5.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<meta name="Author" content="María Jesús Lamarca Lapuente" />
<meta name="description" content="Descripción del documento hipertextual: metadatos
en lenguaje HTML" />
<meta name="keywords" content="hipertexto documento metadatos HTML
documentación"/>
Como ya se ha indicado, el uso de metadatos en
el lenguaje HTML a través
de las etiquetas <META> tiene muchas limitaciones
pues estas etiquetas son demasiado amplias y ambiguas. En la propia
especificación sobre HTML 4.01 ya se aludía
Marco
de Descripción de Recursos
o Resource Description Framework (RDF)
que se convirtió en
Recomendación del W3C en febrero de 1999
y que se actualizó en
2004, como un lenguaje que permitía a los
autores especificar metadatos legibles por máquina sobre documentos
HTML y
otros recursos accesibles por la red.
De esta forma se
han desarrollado otras estructuras más completas, complejas y flexibles para
establecer metadatos en RDF, XML y
esquemas (schemas)
que constituyen perfiles de metainformación que permiten una descripción de
metainformación muy precisa y sin ambigüedades. Uno de los esquemas más
utilizados es, precisamente, el esquema
Dublin Core.
De cualquier
forma, los intentos por lograr una descripción semántica dentro de HTML han sido
continuos. Así nació el lenguaje SHOE o
Simple HTML Ontology Extensions que
fue el primer lenguaje de etiquetado para diseñar
ontologías en la Web antes de que se ideara la
Web Semántica. Tanto las
ontologías como
las etiquetas se incrustaban en archivos HTML. Este
lenguaje permite definir clases y reglas de inferencia, pero no negaciones o
disyunciones. A su albur se desarrollaron muchos
editores, buscadores,
APIS, etc.
He aquí un cuadro que describe las estructuras de datos y metadatos
correspondientes a los principales lenguajes estructurados:
| HTML |
XML |
SGML |
|
Sólo permite los atributos de la etiqueta
<META> que pueden soportar esquemas de metadatos concretos como el DC. |
Descripción abierta y personalizable a través
de RDF (Resource Description Framework) y de otras tecnologías relacionadas. |
Proyectos concretos de codificación de
metainformación como parte de DTD específicas (TEI, EAD, etc.) |
Fuente:
"Estructura de datos y metadatos". Eva Rodríguez Menéndez: Metadatos y
recuperación de información. Gijón, Ediciones Trea, 2002.
Bibliografía
ÁLVAREZ,
Rubén. Manual de HTML.
http://www.desarrolloweb.com/manuales/21/
MÉNDEZ RODRÍGUEZ,
Eva. Metadatos y recuperación de la
información: estándares, problemas y aplicabilidad en bibliotecas digitales.
Gijón, Trea, 2002.
Vancouver Webages. A Dictionary of HTML META Tags.
http://vancouver-webpages.com/META/
W3C. HTML 4.01 Specification.
http://www.w3.org/TR/html401/ (Juan Ramón Pozo: Traducción de la
Especificación HTML 4.01 al castellano
http://html.conclase.net/w3c/html401-es/progreso.html).
W3C. RDF Primer.
http://www.w3.org/TR/rdf-primer/

|