Los tradicionales
catálogos de archivos y bibliotecas no sólo identificaban y describían los
documentos, sino también el lugar donde se podía acceder a ellos. Algo similar
debería existir para la gran biblioteca de
Internet.
Sin embargo, ¿dónde
encontrar un documento dentro de esa maraña que es la red? ¿Cómo expresar, de
forma sencilla y persistente, la localización exacta de un documento? ¿Habrá
alguna solución para que la tan temida y cotidiana frase Error 404, File non found desaparezca
definitivamente de nuestras
pantallas? Para solucionar los problemas de la inestabilidad y la
volatilidad en la localización de los documentos en la red, existen una
serie de iniciativas que tienen como fin encontrar una forma única y
normalizada de localización de cada documento, esto es, identificar el
documento mediante una localización inequívoca y que persista a lo largo del
tiempo y del espacio
Internet.
En los aspectos referentes a la normalización en Internet, hay
que hacer una especial referencia al papel de la RFC.
La RFC o Request For Comment, es la Documentación Estándar sobre Internet que
recoge los protocolos, recomendaciones, etc. para el funcionamiento general de
la red. Se ha creado la RFC-ES.ORG
que traduce estos documentos al castellano
(http://www.rfc-es.org/).
Estas son las iniciativas más importantes llevadas a cabo para
estandarizar y normalizar la localización del documento electrónico o de alguno
de los recursos contenidos en el documento:
Es el sistema más común de localización de documentos
dentro de la web. Lo que describe este recurso no es el nombre del
documento, sino la forma de acceder a él. Se describe en la RFC1737
y su sintaxis
del URL consta de varios bloques separados por barras inclinadas que
indican en primer lugar el protocolo mediante el que se localizará el
documento, seguidas del servidor en el que está alojado, del directorio en
que se encuentra , y en su caso, el subdirectorio o subdirectorios, y
finaliza con el nombre del archivo y extensión del documento que se
pretende identificar y localizar. (Para más información Ver
aaa).
http://www.w3.org/Addressing/URL/Overview.html
Protocolo/ Nombre de dominio internacional/
Directorio/ Subdirectorio/Documento.extensión
[Volver]
El URN fue una iniciativa de la Internet Engineering
Task Force IETF, la rama
de desarrollo de ingeniería y protocolos de Internet, con la
premisa de conseguir una forma universal de identificación de recursos,
para que cada recurso fuera único y constante. Se trataba de un identificador
paralelo al URL. Una característica
importante de este sistema es que trabaja junto con
Uniform
Resource Characteristics/Citacion (URC), un sistema para la
descripción de metadatos. La
sintaxis del URN, explicada en la
RFC2141 consta de 3 bloques separados por dos puntos: el identificador
URN, el NID o nombre de la categoría en la que se incluye el documento (por
ejemplo, inet para documentos de Internet) y el NSS o cadena específica que
indica primero la ruta y a continuación el documento concreto.
- urn:inet:dtsc.edu.au:tr0088
-
Lo interesante de URN es que puede subsumir todos los
identificadores bibliográficos existentes tales como ISSN
(International Standard Serial Number) para publicaciones seriadas, ISBN
(International Standard Books Number) para libros y SICI
(Serial Item and Contribution Identifier) que identifica no sólo la
revista, sino también el número de un publicación seriada.
El primitivo URN, junto con el identificador URL, ha sido uno de los pilares
para la creación del URI, que se está convirtiendo en el identificador
global más utilizado, ya que engloba a ambos.
[Volver]
URI también ha sido desarrollado por el IETF
y pretende crear un sistema mundial para identificar recursos de todo tipo
en la web: documentos, imágenes, programas, servicios, correos
electrónicos, etc. Este método combina URNs y URLs, esto es,
nombres/direcciones. Se trata de identificar los documentos mediante una
secuencia de sintaxis controlada que identifica cada documento de una forma
única. Esta sintaxis se explicaba en la RFC
2396 y, en su versión más reciente, en la
RFC3986. Los URIs hacen posible encontrar los recursos bajo una gran
variedad de esquemas definidos y
métodos de acceso tales como HTTP, FTP, Gopher, news, telnet o correos electrónicos
localizables siempre de la misma manera, ya que a un mismo documento se
puede acceder desde distintos protocolos. Ya se han establecido una serie de
schemes
o esquemas direccionados. Los esquemas definidos URI coinciden con los protocolos más
usados de Internet. Estos son unos ejemplos de esquemas URI extraídos de T.Berners-Lee.
Uniform Resource
Identifiers (URI): Generic Syntax. August 1998. http://www.ietf.org/rfc/rfc2396.txt:
-
-
- ftp://ftp.is.co.za/rfc/rfc1808.txt
- (esquema ftp para servicios de File Transfer Protocol)
-
- gopher://spinaltap.micro.umn.edu/00/Weather/California/Los%20Angeles
-
- (esquema gopher para Gopher y servicios Gopher+ Protocol)
-
- http://www.math.uio.no/faq/compression-faq/part1.html
-
(esquema http para servicios de Hypertext Transfer Protocol )
-
- (esquema news para grupos de noticias y artículos de USENET)
-
-
(esquema telnet para servicios interactivos vía Protocolo TELNET)
-
-
- Para tener una idea general de la función de los distintos
localizadores URs, podemos esquematizar el modelo como sigue:
A finales de 2004, el
World Wide Web Consortium desarrolló
la especificación denominada
Architecture of the World Wide Web (http://www.w3.org/TR/webarch/)
donde se trata a la World Wide Web como una espacio de información y recursos y donde
se destaca la importancia de la identificación a la hora de localizar dichos recursos.
En dicha especificación se da especial importancia a los URI's (http://www.w3.org/TR/webarch/#identification)
Según esta especificación la
World Wide Web es una red que
conforma un espacio de información de recursos interrelacionados. Este espacio
de información es la base de, y es compartido por, un gran número de sistemas
de información. Dentro de cada uno de esos sistemas, la gente y el software
recuperan, crean, recorren, analizan, hablan y razonan sobre los recursos.
La arquitectura Web incluye la definición de la información espacial en términos
de identificación y representación de sus contenidos y de los protocolos
que soportan la interacción de los agentes en un sistema de información que hace
uso del espacio. La arquitectura de la Web está influida por los requerimiento
sociales y por los principios de ingeniería del software. Estos conducen
al diseño de las elecciones y restricciones en el comportamiento de los sistemas
que usan la Web en orden a alcanzar las propiedades deseadas en el espacio de
información compartido: eficiencia, escalabilidad y potencia para crecer
indefinidamente a través de lenguas, culturas y medios. Las buenas prácticas por
parte de los agentes en el sistema son también un factor importante para el
éxito del sistema. La especificación refleja las 3 bases de la arquitectura web:
identificación, interacción y representación.
La World Wide Web es un espacio de información el que los items de
interés referidos a recursos, son identificados por identificadores globales
llamados Uniform Resource Identifiers (URI).
Esto permite que los agentes web, tanto humanos como
software (que incluyen
servidores, proxies,
buscadores,
spiders,
reproductores multimedia, etc.), actúen sobre el espacio de información.
Para el W3C, la elección de una sintaxis con identificadores globales es, de
alguna forma arbitraria, pero es muy importante que tengan ámbito global, y por
eso destaca los beneficios de usar URIs. Estos beneficios son que incluyen
enlaces, bookmarking, marcado e indexación para los
buscadores. Un
recurso con una URI
asociada sirve para que se pueda crear un
enlace de hipertexto que le apunte,
para hacer o refutar
declaraciones sobre este, recuperarlo o marcar una representación, incluir todo
o parte del recurso con el fin de referenciarlo dentro de otra representación, anotarlo o
realizar
otra serie de operaciones. Aunque su utilidad no sea inicialmente evidente,
los desarrolladores de software deberían tener en cuenta todos estos
factores para saber
que compartir una URI con otras aplicaciones resultaría muy útil. Además, como el
espacio de un URI es global, el recurso identificado por un URI no depende del
contexto. Y, al igual que nos podemos referir a una persona por diferentes
nombres (nombre completo, apodo, nombre familiar, etc.), la arquitectura web también
permite la asociación de más de un URI a un recurso. Los URIs que identifican el
mismo recursos se llaman URI aliases.
La especificación también destaca los URIs schemas.
Por ejemplo, en el URI "http://weather.example.com/",
el "http" que aparece antes de los dos puntos (":")
se denomina un esquema URI (URI scheme). Cada esquema URI tiene una
especificación que explica cómo se asignan los identificadores dentro de
este esquema.
La sintaxis URI está, de este modo, asociada a un sistema extensible de
nombres en donde cada
especificación de
esquema debe estar lo más restringida posible por la sintaxis y la semántica
de los identificadores dentro de cada esquema.
Ejemplos de URIs que incluyen varios esquemas son los siguientes:
A continuación se ofrecen algunas de las definiciones al respecto recogidas
en Architecture of the World Wide Web:
URI: Acrónimo para Uniform Resource Identificer.
URI aliases: dos o más URIs que son -carácter por carácter-,
diferentes, pero que identifican el mismo recurso.
URI overloading: uso del mismo URI para referirse a más de un
recurso
en el contexto de los protocolos y formatos de la Web.
URI ownership: la relación entre el agente que asigna y el URI que es
definido por un esquema URI.
URI persistence: la expectación social que desde hace algún tiempo
identifica URI a un recurso particular, este podría continuar
indefinidamente para referirse al recurso.
URI reference: un apunte operacional para un URI.
Uniform Resource Identifier (URI): un identificador global en el
contexto de la World Wide Web.
Namespace document: el recursos de información identificado por un
namespace URI en
XML.
Link o enlace: una relación entre dos recursos cuando un
recurso
(representación) se refiera al otro recurso mediante el significado de un URI.
[Volver]
Internationalized Resource Identifiers (IRI) es un nuevo
elemento de protocolo, un complemento para los URIs [RFC2396].
Un IRI es una secuencia de caracteres del conjunto de caracteres universales (Universal
Character Set) (Unicode/ISO10646). Existe un mapeado de IRIs a URIs, que
permite que los IRIs pueda usarse en lugar de URIs cuando esto sea más apropiado para
identificar recursos. El uso de IRIs es compatible con los esquemas URI.
Así pues, los IRIS se definen de forma similar a los URIs,
pero la clase de caracteres reservados se extiende añadiendo otros caracteres
del conjunto de caracteres UCS (Universal Character Set
[ISO10646] International
Organization for Standardization, ISO/IEC 10646:2003: Information Technology -
Universal Multiple-Octet Coded Character Set (UCS), December 2003.) La
propuesta de definir este nuevo elemento de protocolo se basó en permitir una
distinción clara que evitara incompatibilidades con el software
existente.
Los identificadores en los lenguajes de programación se
usan normalmente en código
ASCII, pero
algunos lenguajes de programación son rígidos. Uno de los más recientes lenguajes de programación como
Java permite identificadores con un mayor
repertorio de caracteres. Los formatos Web también usan identificadores que no
están en ASCII: las formas
HTML identifican iconos por nombre;
RDF
da nombres a las propiedades de los recursos;
XML permite que los elementos y atributos en un documento sean llamados
con nombres que no están en ASCII. Las limitaciones del teclado se citan a menudo como un
problema potencial, pero si un lenguaje usa cientos de caracteres, existe un
software estándar para incluir estos caracteres desde un teclado
general.
ASCII es en parte ambiguo,
pues la gente tiene que aprender a
distinguir, por ejemplo, entre 'l' y '1', ó "'O" y "0". Y cosas que son
indistinguibles visualmente ('é' y 'é')
se pueden escribir de dos manera diferentes (carácter simple y carácter con
acento flotante).
Aunque de manera distinta, la sintaxis y uso de los componentes y
caracteres reservados en un IRI es el mismo que en un URI. Además, todas las
operaciones definidas relativas a URIs, pueden aplicarse a los IRIs
mediante un software de procesamiento IRI, de la misma forma en que se
hace un URIs mediante un software de procesamiento URI.
A continuación se muestra un ejemplo donde se convierte URIs
a IRIs. El resultado final, en notación XML, se alcanza después de aplicar cada uno de los escalones 1 a 5.
Este ejemplo contiene la secuencia '%C3%BC', que es
un secuencia legal de UTF-8, y que se ha convertido dentro del actual carácter
U+00FC LATIN SMALL LETTER U WITH DIAERESIS (también conocido como u-umlaut).
- 1) http://www.example.org/D%C3%BCrst
- 2) http://www.example.org/D<c3><bc>rst
- 3) http://www.example.org/D<c3><bc>rst
- 4) http://www.example.org/D<c3><bc>rst
- 5) http://www.example.org/Dürst
[Volver]
Persistent Uniform
Resource Locator (PURL) (http://purl.org)
También pretende establecer una forma universal de
identificación de recursos, para que cada recurso sea único y constante.
Es un sistema desarrollado por Online Computer Library Center OCLC
y que está actualmente en funcionamiento. Consiste en elaborar una base de
datos de URLs a partir del protocolo HTTP. En esta base de datos se
identifican los nombres de los documentos y los servidores donde se alojan.
Si un documento cambia de lugar, no hay más que comunicárselo a la base de
datos para que se produzca un redireccionamiento de forma automática, PURL
hará de intermediario entre la vieja dirección y la nueva. La asignación
de PURLs se considera como un paso intermedio en el tiempo hasta que los
URNs sean una parte integral de la arquitectura de la información en
Internet. La sintaxis del
PURL es igual a la de un URL, ya que su estructura es la misma. PURLs son
HTTP URLs donde el nombre del
servidor ha sido sustituido por PURL.ORG que
es quien registra el objeto y hacia donde se redirecciona.
-
http://purl.oclc.org/OCLC/PURL/FAQ
Protocolo://dirección a resolver/nombre
En resumen, PURL es un identificador
permanente, un URL que en vez de apuntar directamente a un recurso en Internet, apunta a un servicio intermediario de resolución que dirige el cliente
al URL vigente del recurso.
Ejemplo de un servidor de PURL: GPO
LPS2037 |
http://... |
LPS2038 |
http://ma.water.usgs.gov/camb72.pdf |
LPS203 |
http://cdc.gov/ncidod/eid/index.htm |
LPS2040 |
http://www.waterusgs.gov/pugt/index.html |
LPS2041 |
http://... |
http://cdc/gov/ncidod/eid/index.htm |
Fuente: Texas A&M University
Libraries. Sesión 5. Cambios que afectan a la Catalogación:
http://library.tamu.edu/cataloging/ESPAN/E-SESION%205.pdf
[Volver]
-
Se trata de una iniciativa promovida por un amplio grupo
de editores con el fin de identificar objetos digitales y poder citar un
enlace a un
documento digital teniendo la garantía de que éste no va a
cambiar, aunque cambie de lugar. Un DOI consiste de una única secuencia
alfanumérica que contiene
dos partes. La primera se conoce como Publisher ID e indica el número
que le asigna la Agencia DOI al editor. La segunda parte, se conoce como
Item ID, y es un identificador que le asigna el editor concreto y que
puede ser una secuencia alfanumérica de caracteres. El uso de un
esquema estándar existente en el Item ID, tal como SICI
o PII, por ejemplo, anima a utilizar estos identificadores, aunque
algunos editores pueden optar por usar un esquema propio. Un DOI
puede ser asignado a un objeto digital en el nivel de granularidad que
sea el más apropiado para el editor y puede ser asignado a cada componente.
Por
ejemplo, en un documento
multimedia, un DOI puede ser asignado
tanto a un texto como a
imágenes, sonido, vídeo, etc.
La forma correcta para citar un DOI es la siguiente:
doi:10.1016/j.physletb.2003.10.071 -
Si queremos realizar una búsqueda cuando conocemos un DOI concreto,
sólo hay que realizar la búsqueda en: Resolve a
DOI: http://dx.doi.org
que buscará la página URL asociada al DOI. -
Para probar cómo funciona un DOI, podemos acudir a
alguna base de datos o biblioteca digital en línea que utilice esta
forma de citación como, por ejemplo, ScienceDirect: Digital Library
of the future
http://www.sciencedirect.com/
y allí podremos localizar
documentos provistos de DOI.
Las Agencias registradas, tanto en Europa como en el
resto del mundo, que pueden asignar números DOI, se pueden consultar en
The International DOI Fundation:
http://www.doi.org/registration_agencies.html
[Volver]
-
Se trata de un esquema para identificar tanto
publicaciones periódicas como números de publicaciones periódicas, y que
en 1996 se convirtió en Norma por el
American National Standars
Institute (ANSI
Z39.56). Este identificador se usa desde los años 80 y ahora está muy
extendido. La versión original del SICI permitía asignar un
identificador a cada número de una publicación periódica y a cada
artículo. El código constaba de un Serial Item Identificier: un
código único para identificar un artículo o título de una publicación
periódica, y un Serial Contribution Identifier -para añadir
elementos de datos al código que identifica el Serial Item- un código
que se crea para cada contribución que aparece en el número de la
publicación, si hay más de una contribución que empieza en una misma
página (por ejemplo, en los periódicos).
-
Recientemente, el SICI ha sido ampliado para identificar
fragmentos de un artículo, por ejemplo, una tabla de contenidos, un
resumen o abstract o un índice, y para identificar los formatos físicos.
La estructura tipo se puede extender para ajustarla a las necesidades de
un gran número de sistemas. El SICI
contiene el
ISSN de la revista en el
segmento del código de identificación. He aquí un ejemplo de localizador
SICI:
-
1234-5679 (1996) <::INS-0233456> 3.0.CO;2-#
-
Identificación
<Contribución> Control
[Volver]
Book
Item and Contribution Identifier (BICI)
http://bic.org.uk/
-
Para identificar libros o capítulos de libros. Es
prácticamente lo mismo que el SICI, pero para libros, y usa el
ISBN en
lugar del
ISSN. También se emplea para
identificar una parte, un capítulo o una sección del libro, o para otros
componentes como la introducción, el prólogo o el índice del libro.
Ejemplo de un identificador BICI que identifica una
parte que compone un libro usando un código definido por un editor
definido (en este ejemplo G123346) es el siguiente:
1857157796(1996)<1-10;ITB;1;G123456>C.T.TX;1-X
[Volver]
Publisher's Item
Identifier (PII)
El PII fue desarrollado en 1995 por un grupo de editoriales
y es un índice que sirve para identificar editores. La sintaxis de PII
está formada por 17 caracteres que contienen el
ISBN
o el ISNN del documento para
garantizar la unicidad. Las futuras versiones del PII se pueden extender
para cubrir no sólo documentos, sino partes de documentos o diferentes
versiones de un mismo documento. Seguidores del PII han sido la
American Chemical Society (ACS),
el
American Institute of Physics
(AIP), el
Institute of Electrical and Electronics
Engineeers (IEEE) y
Elsevier Science. Para el
desarrollo del PII se tienen ahora
en cuenta otros índice como por ejemplo el DOI y los URNs. Ejemplo:
s0955221997000046
[Volver]
Otros proyectos de normalización
en la localización
Existen otros mucho proyectos e iniciativas para
identificar recursos en la web. Podemos destacar el International Standard
Work Code (ISWC) ISO-15707:2001 para identificar publicaciones de música y que incluye el
ISMN International Standard Music Number;
WEBDAV desarrollado por la
IETF;
Human Friendly Names; Handle System,
un software desarrollado por
CNRI
que provee un mecanismo para nombrar e identificar objetos digitales; otros proyectos desarrollados por
The Book Industry
Council BIC,
etc.
[Volver]
Bibliografía:
ANSI.
NSSN Service: A National Resource for
Global Standars.
http://www.NSSN.org/
ANSI/NISO.
Serial Item and Contribution Identifier (SICI). ANSI/NISO Z39.56-1996 (Version
2).
http://www.niso.org/standars/resources/Z39-56.pdf
BIDE, Mark Bide
and HING, Trevor. User Identification and
Authentication: a brief introduction. February 1998.
http://www.bic.org.uk/userid.pdf
GREEN, Brian. BIDE, Mark. Unique Identifiers: a brief introduction.
http://www.bic.org.uk/uniquid.html
IETF.
Guidelines for new URL Schemes, ovember 1999 RFC2718
http://www.ietf.org/rfc/rfc2718.txt
IETF.
Uniform Resource Identificiers (URI): Generic Syntax (RFC 2396). T. Berners-Lee, R. Fielding, L. Masinter. August 1998.
http://www.ietf.org/rfc/rfc2396.txt
IETF RFC 2396.
IETF (Internet Engineering Task Force). RFC 2396: Uniform Resource
Identifiers (URI): Generic Syntax. T. Berners-Lee, R. Fielding, L.
Masinter. 1998. (See
http://www.ics.uci.edu/pub/ietf/uri/rfc2396.txt.)
IETF.
URN Syntax. May 1997.
http://www.ietf.org/rfc/rfc2141.txt
The
International DOI Fundation. The Digital Object Idenfier System (DOI).
http://www.doi.org/
Internet
RFC. ¿Qué es URL?
http://www.faqs.org/rfcs/rfc1738.html
Internet
RFC.¿Qué es URI?
http://www.faqs.org/rfcs/rfc1630.html
LOUGHBOROUGH, William. Order from Chaos.
http://rdf.pair.com/
LYNCH,
C. PRESTON, C. DANIEL, R. Using existing
bibliographic identifiers as Uniform Resource Names. RFC 2288, February
1998.
http://www.ietf.org/rfc/rfc2288.txt
LYCNH, Clifford. Identificiers and Their Role In Networked
Information Applications.
http://www.arl.org/newsltr/194/identifier.html
MARTÍN,
David. A Standard Identifier for Book Items and Contributions -draft (Report
prepared for BIC and de British National Bibliography Research Fund).
http://www.bic.org.uk/bici.html
MÉNDEZ RODRÍGUEZ, Eva Mª; MERLO
VEGA, José Antonio. Localización,
identificación y descripción de documentos web: tentativas hacia la
normalización. En VII
Jornadas Españolas de Documentación. Bilbao, Universidad del País Vasco, 2000.
http://exlibris.usal.es/merlo/escritos/pdf/bilbao2.pdf
POWELL, Andy. Unique
identifiers in a digital world. Ariadne,
vol. 8, 8 abr. 1997.
http://www.ariadne.ac.uk/issue8/unique-identifiers
PURL Home Page.
http://purl.oclc.org
UKOLN.
Guidelines for using resource identifiers in Dublin Core metadata and
IEEE LOM.
http://www.ukoln.ac.uk/metadata/dcmi-ieee/identifiers/
W3C. Naming and Addressing: URIs, URLs, ...
http://www.w3.org/Addressing/
W3C. Internatinalized Resource Identifier (IRI).
http://www.w3.org/International/iri-edit/draft-duerst-iri.html
W3C. Internationalized Resource Identificiers (IRIs)
http://www.w3.org/International/O-URL-and-ident.html
|