Normalización localización e identificación

María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen.


 
 

Inicio   navega al azar mapa conceptual  buscar

Los tradicionales catálogos de archivos y bibliotecas no sólo identificaban y describían los documentos, sino también el lugar donde se podía acceder a ellos. Algo similar debería existir para la gran biblioteca de Internet. error 404Sin embargo, ¿dónde encontrar un documento dentro de esa maraña que es la red? ¿Cómo expresar, de forma sencilla y persistente, la localización exacta de un documento? ¿Habrá alguna solución para que la tan temida y cotidiana frase Error 404, File non found desaparezca definitivamente de nuestras pantallas?  

Para solucionar los problemas de la inestabilidad y la volatilidad en la localización de  los documentos en la red, existen una serie de iniciativas que tienen como fin encontrar una forma única y normalizada de localización de cada documento, esto es, identificar el documento mediante una localización inequívoca y que persista a lo largo del tiempo y del espacio Internet.

En los aspectos referentes a la normalización en Internet, hay que hacer una especial referencia al papel de la RFC. La RFC o Request For Comment, es la Documentación Estándar sobre Internet que recoge los protocolos, recomendaciones, etc. para el funcionamiento general de la red. Se ha creado la RFC-ES.ORG que traduce estos documentos al castellano (http://www.rfc-es.org/).

 Estas son las iniciativas más importantes llevadas a cabo para estandarizar y normalizar la localización del documento electrónico o de alguno de los recursos contenidos en el documento:

Uniform Resource Locator (URL) (http:/www.w3.org/Addressing/URL/Overview.html)

Es el sistema más común de localización de documentos dentro de la web. Lo que describe este recurso no es el nombre del documento, sino la forma de acceder a él. Se describe en la RFC1737 y su sintaxis del URL consta de varios bloques separados por barras inclinadas que indican en primer lugar el protocolo mediante el que se localizará el documento, seguidas del servidor en el que está alojado, del directorio en que se encuentra , y en su caso, el subdirectorio o subdirectorios, y finaliza con el nombre del archivo y extensión del documento que se pretende identificar y localizar. (Para más información Ver aaa).

http://www.w3.org/Addressing/URL/Overview.html

Protocolo/ Nombre de dominio internacional/ Directorio/ Subdirectorio/Documento.extensión 

[Volver]

Uniform Resource Name (URN) (http://www.ietf.org/html.charters/REMOVED/urn-charter.html)

El URN fue una iniciativa de la Internet Engineering Task Force IETF, la rama de desarrollo de ingeniería y protocolos de Internet, con la premisa de conseguir una forma universal de identificación de recursos, para que cada recurso fuera único y constante. Se trataba de un identificador paralelo al URL. Una característica importante de este sistema es que trabaja junto con Uniform Resource Characteristics/Citacion (URC), un sistema para la descripción de metadatos. La sintaxis del URN, explicada en la RFC2141 consta de 3 bloques separados por dos puntos: el identificador URN, el NID o nombre de la categoría en la que se incluye el documento (por ejemplo, inet para documentos de Internet) y el NSS o cadena específica que indica primero la ruta y a continuación el documento concreto.

urn:inet:dtsc.edu.au:tr0088
 

Lo interesante de URN es que puede subsumir todos los identificadores bibliográficos existentes tales como ISSN (International Standard Serial Number) para publicaciones seriadas, ISBN (International Standard Books Number) para libros y SICI (Serial Item and Contribution Identifier) que identifica no sólo la revista, sino también el número de un publicación seriada.

El primitivo URN, junto con el identificador URL, ha sido uno de los pilares para la creación del URI, que se está convirtiendo en el identificador global más utilizado, ya que engloba a ambos.

[Volver]

Uniform Resource Identifier (URI) (http://www.ics.uci.edu/pub/ietf/uri)

URI también ha sido desarrollado por el IETF y pretende crear un sistema mundial para identificar recursos de todo tipo en la web: documentos, imágenes, programas, servicios, correos electrónicos, etc. Este método combina URNs y URLs, esto es, nombres/direcciones. Se trata de identificar los documentos mediante una secuencia de sintaxis controlada que identifica cada documento de una forma única. Esta sintaxis se explicaba en la RFC 2396 y, en su versión más reciente, en la RFC3986. Los URIs hacen posible encontrar los recursos bajo una gran variedad de esquemas definidos y métodos de acceso tales como HTTP, FTP, Gopher, news, telnet o correos electrónicos localizables siempre de la misma manera, ya que a un mismo documento se puede acceder desde distintos protocolos. Ya se han establecido una serie de schemes o esquemas direccionados. Los esquemas definidos URI coinciden con los protocolos más usados de Internet. Estos son unos ejemplos de esquemas URI extraídos de T.Berners-Lee. Uniform Resource Identifiers (URI): Generic Syntax. August 1998.  http://www.ietf.org/rfc/rfc2396.txt:

 

ftp://ftp.is.co.za/rfc/rfc1808.txt 
(esquema ftp para servicios de File Transfer Protocol)
 
gopher://spinaltap.micro.umn.edu/00/Weather/California/Los%20Angeles
(esquema gopher para Gopher y servicios Gopher+ Protocol)
 
http://www.math.uio.no/faq/compression-faq/part1.html
(esquema http para servicios de Hypertext Transfer Protocol )
 
mailto:mduerst@ifi.unizh.ch
(esquema de mailto para direcciones de correo electrónico)
 
(esquema news para grupos de noticias y artículos de USENET)
(esquema telnet para servicios interactivos vía Protocolo TELNET)
Para tener una idea general de la función de los distintos localizadores URs, podemos esquematizar el modelo como sigue:

resumen URs

A finales de 2004, el World Wide Web Consortium desarrolló la especificación denominada Architecture of the World Wide Web (http://www.w3.org/TR/webarch/) donde se trata a la World Wide Web como una espacio de información y recursos  y donde se destaca la importancia de la identificación a la hora de localizar dichos recursos. En dicha especificación se da especial importancia a los URI's (http://www.w3.org/TR/webarch/#identification)

Según esta especificación la World Wide Web es una red que conforma un espacio de información de recursos interrelacionados. Este espacio de información es la base de, y es compartido por, un gran número de sistemas de información. Dentro de cada uno de esos sistemas, la gente y el software recuperan, crean, recorren, analizan, hablan y razonan sobre los recursos.

La arquitectura Web incluye la definición de la información espacial en términos de identificación y representación de sus contenidos  y de los protocolos que soportan la interacción de los agentes en un sistema de información que hace uso del espacio. La arquitectura de la Web está influida por los requerimiento sociales y por los principios de ingeniería del software. Estos conducen al diseño de las elecciones y restricciones en el comportamiento de los sistemas que usan la Web en orden a alcanzar las propiedades deseadas en el espacio de información compartido: eficiencia, escalabilidad y potencia para crecer indefinidamente a través de lenguas, culturas y medios. Las buenas prácticas por parte de los agentes en el sistema son también un factor importante para el éxito del sistema. La especificación refleja las 3 bases de la arquitectura web: identificación, interacción y representación.

La World Wide Web es un espacio de información el que los items de interés referidos a recursos, son identificados por identificadores globales llamados Uniform Resource Identifiers (URI). Esto permite que los agentes web, tanto humanos como software (que incluyen servidores, proxies, buscadores, spiders, reproductores multimedia, etc.), actúen sobre el espacio de información.

Para el W3C, la elección de una sintaxis con identificadores globales es, de alguna forma arbitraria, pero es muy importante que tengan ámbito global, y por eso destaca los beneficios de usar URIs. Estos beneficios son que incluyen enlaces, bookmarking, marcado e indexación para los buscadores. Un recurso con una URI asociada sirve para que se pueda crear un enlace de hipertexto que le apunte, para hacer o refutar declaraciones sobre este, recuperarlo o marcar una representación, incluir todo o parte del recurso con el fin de referenciarlo dentro de otra representación, anotarlo o realizar otra serie de operaciones. Aunque su utilidad no sea inicialmente evidente, los desarrolladores de software deberían tener en cuenta todos estos factores para saber que compartir una URI con otras aplicaciones resultaría muy útil. Además, como el espacio de un URI es global, el recurso identificado por un URI no depende del contexto. Y, al igual que nos podemos referir a una persona por diferentes nombres (nombre completo, apodo, nombre familiar, etc.), la arquitectura web también permite la asociación de más de un URI a un recurso. Los URIs que identifican el mismo recursos se llaman URI aliases

La especificación también destaca los URIs schemas. Por ejemplo, en el URI "http://weather.example.com/", el "http" que aparece antes de los dos puntos (":") se denomina un esquema URI (URI scheme). Cada esquema URI tiene una especificación que explica cómo se asignan los identificadores dentro de este esquema. La sintaxis URI está, de este modo, asociada a un sistema extensible de nombres en donde cada especificación de esquema debe estar lo más restringida posible por la sintaxis y la semántica de los identificadores dentro de cada esquema.

Ejemplos de URIs que incluyen varios esquemas son los siguientes:

A continuación se ofrecen algunas de las definiciones al respecto recogidas en Architecture of the World Wide Web:

URI: Acrónimo para Uniform Resource Identificer.
URI aliases: dos o más URIs que son -carácter por carácter-, diferentes, pero que identifican el mismo recurso.
URI overloading: uso del mismo URI para referirse a más de un recurso en el contexto de los protocolos y formatos de la Web.
URI ownership: la relación entre el agente que asigna y el URI que es definido por un esquema URI.
URI persistence: la expectación social que desde hace algún tiempo identifica URI a un recurso particular, este podría continuar indefinidamente para referirse al recurso.
URI reference: un apunte operacional para un URI.
Uniform Resource Identifier (URI): un identificador global en el contexto de la World Wide Web.
Namespace document: el recursos de información identificado por un namespace URI en XML.
Link o enlace: una relación entre dos recursos cuando un recurso (representación) se refiera al otro recurso mediante el significado de un URI.

[Volver]

Internationalized Resource Identifier (IRI) http://www.w3.org/International/iri-edit/draft-duerst-iri.html

Internationalized Resource Identifiers (IRI) es un nuevo elemento de protocolo, un complemento para los URIs [RFC2396]. Un IRI es una secuencia de caracteres del conjunto de caracteres universales (Universal Character Set) (Unicode/ISO10646). Existe un mapeado de IRIs a URIs, que permite que los IRIs pueda usarse en lugar de URIs cuando esto sea más apropiado para identificar recursos. El uso de IRIs es compatible con los esquemas URI.

Así pues, los IRIS se definen de forma similar a los URIs, pero la clase de caracteres reservados se extiende añadiendo otros caracteres del conjunto de caracteres UCS (Universal Character Set [ISO10646] International Organization for Standardization, ISO/IEC 10646:2003: Information Technology - Universal Multiple-Octet Coded Character Set (UCS), December 2003.) La propuesta de definir este nuevo elemento de protocolo se basó en permitir una distinción clara que evitara incompatibilidades con el software existente.

Los identificadores en los lenguajes de programación se usan normalmente en código ASCII, pero algunos lenguajes de programación son rígidos. Uno de los más recientes lenguajes de programación como Java permite identificadores con un mayor repertorio de caracteres. Los formatos Web también usan identificadores que no están en ASCII: las formas HTML identifican iconos por nombre; RDF da nombres a las propiedades de los recursos; XML permite que los elementos y atributos en un documento sean llamados con nombres que no están en ASCII. Las limitaciones del teclado se citan a menudo como un problema potencial, pero si un lenguaje usa cientos de caracteres, existe un software estándar para incluir estos caracteres desde un teclado general.

ASCII es en parte ambiguo, pues la gente tiene que aprender a distinguir, por ejemplo, entre 'l' y '1', ó "'O" y "0".  Y cosas que son indistinguibles visualmente ('é' y 'é') se pueden escribir de dos manera diferentes (carácter simple y  carácter con acento flotante).

Aunque de manera distinta, la sintaxis y uso de los componentes y caracteres reservados en un IRI es el mismo que en un URI. Además, todas las operaciones definidas relativas a URIs, pueden aplicarse a los IRIs mediante un software de procesamiento IRI, de la misma forma en que se hace un URIs mediante un software de procesamiento URI.

A continuación se muestra un ejemplo donde se convierte URIs a IRIs. El resultado final, en notación XML, se alcanza después de aplicar cada uno de los escalones 1 a 5. Este ejemplo contiene la secuencia '%C3%BC', que es un secuencia legal de UTF-8, y que se ha convertido dentro del actual carácter U+00FC LATIN SMALL LETTER U WITH DIAERESIS (también conocido como u-umlaut).

1) http://www.example.org/D%C3%BCrst
2) http://www.example.org/D<c3><bc>rst
3) http://www.example.org/D<c3><bc>rst
4) http://www.example.org/D<c3><bc>rst
5) http://www.example.org/D&#xFC;rst

[Volver]

Persistent Uniform Resource Locator (PURL) (http://purl.org)

También pretende establecer una forma universal de identificación de recursos, para que cada recurso sea único y constante. Es un sistema desarrollado por Online Computer Library Center OCLC y que está actualmente en funcionamiento. Consiste en elaborar una base de datos de URLs a partir del protocolo HTTP. En esta base de datos se identifican los nombres de los documentos y los servidores donde se alojan. Si un documento cambia de lugar, no hay más que comunicárselo a la base de datos para que se produzca un redireccionamiento de forma automática, PURL hará de intermediario entre la vieja dirección y la nueva. La asignación de PURLs se considera como un paso intermedio en el tiempo hasta que los URNs sean una parte integral de la arquitectura de la información en Internet. La sintaxis del PURL es igual a la de un URL, ya que su estructura es la misma. PURLs son HTTP URLs donde el nombre del servidor ha sido sustituido por PURL.ORG que es quien registra el objeto y hacia donde se redirecciona. 

http://purl.oclc.org/OCLC/PURL/FAQ

           Protocolo://dirección a resolver/nombre

En resumen, PURL es un identificador permanente, un URL que en vez de apuntar directamente a un recurso en Internet, apunta a un servicio intermediario de resolución que dirige el cliente al URL vigente del recurso.

Ejemplo de un servidor de PURL: GPO

http://purl.access.gpo.gov/GPO/LPS203
flecha

LPS2037 http://...
LPS2038 http://ma.water.usgs.gov/camb72.pdf
flechaLPS203 http://cdc.gov/ncidod/eid/index.htmflecha
LPS2040 http://www.waterusgs.gov/pugt/index.html
LPS2041 http://...

flecha
http://cdc/gov/ncidod/eid/index.htm

Fuente: Texas A&M University Libraries. Sesión 5. Cambios que afectan a la Catalogación: http://library.tamu.edu/cataloging/ESPAN/E-SESION%205.pdf

[Volver]

Digital Object Identifier (DOI) http://www.doi.org

Se trata de una iniciativa promovida por un amplio grupo de editores con el fin de identificar objetos digitales y poder citar un enlace a un documento digital teniendo la garantía de que éste no va a cambiar, aunque cambie de lugar. Un DOI consiste de una única secuencia alfanumérica que contiene dos partes. La primera se conoce como Publisher ID e indica el número que le asigna la Agencia DOI al editor. La segunda parte, se conoce como Item ID, y es un identificador que le asigna el editor concreto y que puede ser una secuencia alfanumérica de caracteres. El uso de un esquema estándar existente en el Item ID, tal como SICI o PII, por ejemplo, anima a utilizar estos identificadores, aunque algunos editores pueden optar por  usar un esquema propio. Un DOI puede ser asignado a un objeto digital en el nivel de granularidad que sea el más apropiado para el editor y puede ser asignado a cada componente. Por ejemplo, en un documento multimedia, un DOI puede ser asignado tanto a un texto como a imágenes, sonido, vídeo, etc.

La forma correcta para citar un DOI es la siguiente: doi:10.1016/j.physletb.2003.10.071

Si queremos realizar una búsqueda cuando conocemos un DOI concreto, sólo hay que realizar la búsqueda en: Resolve a DOI: http://dx.doi.org logo DOI que buscará la página URL asociada al DOI.

Para probar cómo funciona un DOI, podemos acudir a alguna base de datos o biblioteca digital en línea que utilice esta forma de citación como, por ejemplo, ScienceDirect: Digital Library of the future http://www.sciencedirect.com/ y allí podremos localizar documentos provistos de DOI.

Las Agencias registradas, tanto en Europa como en el resto del mundo, que pueden asignar números DOI, se pueden consultar en The International DOI Fundation: http://www.doi.org/registration_agencies.html

[Volver]

Serial Item and Contribution Identifier (SICI) (http://www.niso.org/standards/resources/Z39-56.pdf)

Se trata de un esquema para identificar tanto publicaciones periódicas como números de publicaciones periódicas, y que en 1996 se convirtió en Norma por el American National Standars Institute (ANSI Z39.56). Este identificador se usa desde los años 80 y ahora está muy extendido. La versión original del SICI permitía asignar un identificador a cada número de una publicación periódica y a cada artículo. El código constaba de un Serial Item Identificier: un código único para identificar un artículo o título de una publicación periódica, y un Serial Contribution Identifier -para añadir elementos de datos al código que identifica el Serial Item- un código que se crea para cada contribución que aparece en el número de la publicación, si hay más de una contribución que empieza en una misma página (por ejemplo, en los periódicos).

Recientemente, el SICI ha sido ampliado para identificar fragmentos de un artículo, por ejemplo, una tabla de contenidos, un resumen o abstract o un índice, y para identificar los formatos físicos. La estructura tipo se puede extender para ajustarla a las necesidades de un gran número de sistemas. El SICI contiene el ISSN de la revista en el segmento del código de identificación. He aquí un ejemplo de localizador SICI: 
 

1234-5679 (1996) <::INS-0233456> 3.0.CO;2-#

   Identificación   <Contribución>  Control           

[Volver]

Book Item and Contribution Identifier (BICI) http://bic.org.uk/

Para identificar libros o capítulos de libros. Es prácticamente lo mismo que el SICI, pero para libros, y usa el ISBN en lugar del ISSN. También se emplea para identificar una parte, un capítulo o una sección del libro, o para otros componentes como la introducción, el prólogo o el índice del libro.

Ejemplo de un identificador BICI que identifica una parte que compone un libro usando un código definido por un editor definido (en este ejemplo G123346) es el siguiente:

1857157796(1996)<1-10;ITB;1;G123456>C.T.TX;1-X

[Volver]

Publisher's Item Identifier (PII) 

El PII fue desarrollado en 1995 por un grupo de editoriales y es un índice que sirve para identificar editores. La sintaxis de PII está formada por 17 caracteres que contienen el ISBN o el ISNN del documento para garantizar la unicidad. Las futuras versiones del PII se pueden extender para cubrir no sólo documentos, sino partes de documentos o diferentes versiones de un mismo documento. Seguidores del PII han sido la American Chemical Society (ACS), el American Institute of Physics (AIP), el Institute of Electrical and Electronics Engineeers (IEEE) y Elsevier Science. Para el desarrollo del PII se tienen ahora en cuenta otros índice como por ejemplo el DOI y los URNs. Ejemplo:

s0955221997000046

[Volver]

Otros proyectos de normalización en la localización

Existen otros mucho proyectos e iniciativas para identificar recursos en la web. Podemos destacar el International Standard Work Code (ISWC) ISO-15707:2001 para identificar publicaciones de música y que incluye el ISMN International Standard Music Number; WEBDAV desarrollado por la IETF; Human Friendly NamesHandle System, un software desarrollado por CNRI que provee un mecanismo para nombrar e identificar objetos digitales; otros proyectos desarrollados por The Book Industry Council BIC, etc. 

[Volver]


Bibliografía:

ANSI. NSSN Service: A National Resource for Global Standars. http://www.NSSN.org/

ANSI/NISO. Serial Item and Contribution Identifier (SICI). ANSI/NISO Z39.56-1996 (Version 2). http://www.niso.org/standars/resources/Z39-56.pdf

BIDE, Mark Bide and HING, Trevor. User Identification and Authentication: a brief introduction. February 1998. http://www.bic.org.uk/userid.pdf

GREEN, Brian. BIDE, Mark. Unique Identifiers: a brief introduction. http://www.bic.org.uk/uniquid.html

IETF. Guidelines for new URL Schemes, ovember 1999 RFC2718 http://www.ietf.org/rfc/rfc2718.txt

IETF. Uniform Resource Identificiers (URI): Generic Syntax (RFC 2396). T. Berners-Lee, R. Fielding, L. Masinter. August 1998. http://www.ietf.org/rfc/rfc2396.txt

IETF RFC 2396. IETF (Internet Engineering Task Force). RFC 2396: Uniform Resource Identifiers (URI): Generic Syntax. T. Berners-Lee, R. Fielding, L. Masinter. 1998. (See http://www.ics.uci.edu/pub/ietf/uri/rfc2396.txt.)

IETF. URN Syntax. May 1997. http://www.ietf.org/rfc/rfc2141.txt

The International DOI Fundation. The Digital Object Idenfier System (DOI). http://www.doi.org/

Internet RFC. ¿Qué es URL? http://www.faqs.org/rfcs/rfc1738.html

Internet RFC.¿Qué es URI? http://www.faqs.org/rfcs/rfc1630.html

LOUGHBOROUGH, William. Order from Chaos. http://rdf.pair.com/

LYNCH, C. PRESTON, C. DANIEL, R. Using existing bibliographic identifiers as Uniform Resource Names. RFC 2288, February 1998. http://www.ietf.org/rfc/rfc2288.txt

LYCNH, Clifford. Identificiers and Their Role In Networked Information Applications. http://www.arl.org/newsltr/194/identifier.html

MARTÍN, David. A Standard Identifier for Book Items and Contributions -draft (Report prepared for BIC and de British National Bibliography Research Fund). http://www.bic.org.uk/bici.html

MÉNDEZ RODRÍGUEZ, Eva Mª; MERLO VEGA, José Antonio. Localización, identificación y descripción de documentos web: tentativas hacia la normalización. En VII Jornadas Españolas de Documentación. Bilbao, Universidad del País Vasco, 2000. http://exlibris.usal.es/merlo/escritos/pdf/bilbao2.pdf

POWELL, Andy. Unique identifiers in a digital world. Ariadne, vol. 8, 8 abr. 1997. http://www.ariadne.ac.uk/issue8/unique-identifiers

PURL Home Page. http://purl.oclc.org

UKOLN. Guidelines for using resource identifiers in Dublin Core metadata and IEEE LOM. http://www.ukoln.ac.uk/metadata/dcmi-ieee/identifiers/

W3C. Naming and Addressing: URIs, URLs, ... http://www.w3.org/Addressing/

W3C. Internatinalized Resource Identifier (IRI). http://www.w3.org/International/iri-edit/draft-duerst-iri.html

W3C. Internationalized Resource Identificiers (IRIs) http://www.w3.org/International/O-URL-and-ident.html

 

    Arriba 


 

 Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen
 Autora: María Jesús Lamarca Lapuente (currículo personal)

 Contacta

 Tesis doctoral. Universidad Complutense de Madrid

 URL: http://www.hipertexto.info

 Fecha de Actualización: 08/12/2013   

 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb.
 34.389 enlaces (10.436 externos y 23.953 internos)
  

Esta obra está licenciada bajo las siguientes condiciones: 
Creative Commons License
Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.

 


OTRAS PÁGINAS DE LA AUTORA
 

           Blog El Cultural a la PuertaBlog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ 

                                                                                                                AGETECA. Base de Datos de Gestión Cultural
                                                                                                                 Ageteca. Base de Datos de Gestión Cultural:
      
                                                                                                    http://www.agetec.org/ageteca

Fundación Ricardo Lamarca, ajedrez y cultura

Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es

 

 

La artesa digital

Blog La artesa digital
http://artesadigital.blogspot.com.es

Especial Poesía: Hasta allí hemos llegado

Blog La artesa digital Flickr La artes@ digital: Galería de fotos mundo
 digital y mundo analógico: http://www.flickr.com/photos/artesadigital/

Blog miembras

Blog Miembras: usos lingüísticos, políticos y sociales del lenguajeBlog Miembras: Usos lingüísticos, políticos
 y sociales del lenguaje http://miembras.blogspot.com

 

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores