María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen. |
Existen una gran variedad de formatos para crear archivos textuales, todo
depende del software utilizado. Algunas aplicaciones sólo permiten
almacenar texto simple, pero otros procesadores de texto se han convertido en
herramientas muy complejas que permiten una gran variedad de formatos para crear
archivos de texto y que ofrecen también la posibilidad de convertir unos
formatos a otros. Algunos de estos formatos son de simple almacenamiento del
texto (txt), otros permiten establecer la tipografía, estilos y apariencia de
párrafos, páginas, etc. (doc), otros inciden en la forma o formato de
impresión utilizando un sistema de marcadores que permite definir el contenido
de las páginas con independencia del dispositivo de salida utilizado (PostScript)
y algunos aseguran la integridad del contenido y la presentación del documento
tal y como ha sido guardado (PDF o formatos de documentos portables). Incluso
hay softwares específicos que sirven para la edición y maquetación de
documentos largos y complejos.
Formatos de texto:
Archivos de texto sin formato:Como hemos afirmado anteriormente, todos los formatos de archivo utilizados en Internet pueden ser divididos en 2 tipos: formato ASCII y formato binario. Pues bien, uno de los formatos de almacenamiento de textos más antiguos es la norma ASCII, una forma de codificar un alfabeto que consta de 128 caracteres o símbolos. ASCIIEl código ASCII (The American Standard Code for Information Interchange o Código estándar Estadounidense para el Intercambio de Información) es un formato de almacenamiento general que guarda los datos mediante texto simple. Por ejemplo, en código ASCII, el símbolo @ es la combinación de las teclas ALT y el Número 64. En la Web existen algunas páginas que muestran la tabla completa de los caracteres del código ASCII (podemos ver una de estas tablas en: http://www.abcdatos.com/utiles/ascii.html). La principal ventaja de utilizar código plano es que puede ser leído por cualquier tipo de ordenador y por cualquier sistema sin necesidad de utilizar de utilizar programas específicos. Archivos de texto plano ASCII son los archivos HTM y HTML en los que están escritos los documentos de la Web y que contienen información estructurada. Este tipo de archivos requieren un navegador web para poder visualizar la información. Con el tiempo y, en la práctica, aunque se limitan a describir la estructura y el contenido del documento y no el formato de la página y su apariencia, los archivos HTML se han convertido también en formatos de presentación. También son archivos de texto plano ASCII los documentos txt. Estos documentos pueden ser visualizados con cualquier procesador de textos complejo (tipo Word) o con un sencillo editor de textos (Bloc de Notas), podemos convertir en texto plano codificado en simple ASCII. El desarrollo de las escrituras digitales alfabéticas hizo que del código de 128 caracteres se pasara a 256 caracteres y otros códigos ASCII ampliados. De esta forma, la ISO creó una norma llamada Unicode y basada en un estándar de un juego de caracteres más amplio que sirviera para diferentes lenguas y escrituras. Se trata de la norma ISO 10646, equivalente al estándar UNICODE. Documentos con formatoFormatos de documentos tipo .doc elaborados con un procesador de textosSe trata de
formatos para PCs, comunes para archivos de textos formateados en algún procesador
o editor de texto que admita formato, tales Formatos de descripción de páginaHay formatos de documento que procuran conservar la imagen de una página entera impresa. La página puede almacenarse usando un lenguaje de descripción de página (PDL) donde se almacenan juntos texto y gráficos con información de salida como disposición, fuente, estilo de línea, etc. Esto significa que se almacena más información dentro del formato de trama. Los PDLs se diseñan para presentación de formateados completos, y en los dispositivos de salida se imprime la forma final de las imágenes de página (no-revisables). 'El papel virtual ' es una buena metáfora para los PDLs. La mayor parte de PDLS se orientan hacia la presentación de páginas sobre impresoras láser. PostScript (PS, EPS)Un archivo PostScript es un archivo de tipo ASCII que, aunque técnicamente es un archivo de texto plano, es ilegible excepto para una impresora Postcript o para un visualizador (tipo Ghostscript).
PostScript es un lenguaje de descripción de página o Page Description Language (PDL) que en su versión comercial fue diseñado por Adobe Systems Inc en 1985 y que ha tenido mucha influencia en el aspecto final del Lenguaje de Descripción de Página Estandarizado, ya que existe un estándar de ISO, el SPDL. El desarrollo del lenguaje PostScript tenía como objetivo representar el texto y las imágenes de igual forma en el papel que sobre la pantalla, esto es, respetar el contenido con independencia del dispositivo de salida utilizado.
Comparado con otros formatos más orientados a objetos gráficos, un archivo gráfico PostScript es muy difícil de modificar y resulta poco práctico corregir un documento de este tipo. Aunque independiente del dispositivo, la imagen PostScript es un modelo que exige dispositivos de trama para su presentación, por lo que precisa mucha memoria. PostScritp presenta muchas ventajas para la salida del color de alta resolución. Se afirma que es tan bueno como una copia impresa en papel y que ofrece una gran flexibilidad para el cambio de escala y tamaño sin pérdida de información.
El PostScript encapsulado o Encapsulated PostScript (EPS) es un subconjunto de PostScript que permite almacenar información en lenguaje PostScript, pero excluye el tamaño o la información sobre la colocación. Esto significa que una parte de una página puede introducirse en otro documento. Con frecuencia se usa para la inclusión de gráficos dentro de documentos donde éstos han sido producidos por un paquete diferente al que se usa para producir el texto.
Existen varios nivel PostScript. El Nivel 2 es muy útil para páginas de alta calidad cuyo fin es la impresión, aunque la equivalencia total no puede garantizarse debido a la impresora utilizada. El formato que sí garantiza la fidelidad de la página es PDF. Portable Document Format (PDF)Portable Document Format o formato de Documento Portable. Se trata de un formato propietario desarrollado por Adobe Systems Inc. que permite que los documentos formateados (que contienen diseño gráfico) sean transferidos por Internet y se visualicen de la misma manera en cualquier ordenador y sistema. Se trata de un tipo de archivo binario. Este tipo de archivo requiere de un software tipo Adobe Acrobat Reader para ver archivos, y puede ser descargado del sitio web de Adobe, pero también existen otros programas no propietarios que sirven para generar o visualizar este tipo de archivos. Los documentos PDF se enmarcan dentro del concepto de PostScript, y, en concreto, Adobe ha desarrollado enormemente este concepto para definir su Portable document format (PDF) que se incluye dentro de un software llamado Acrobat y que consta de varios módulos. El más conocido es Acrobat Reader o lector de documentos PDF porque se trata de un software libre, aunque existen otras funcionalidades desarrolladas por diferentes módulos (Acrobat PDF Writer o software de interfaz, Acrobat Exchange que permite alguna corrección, anotaciones, enlaces y comandos de seguridad para documentos; Acrobat Search para búsqueda de documentos; Acrobat Type Manager que asegura el uso de distintas fuentes y la resolución para dispositivos; Acrobat Distiller para conversión de PostScript o EPS; Adobe Acrobat for Workgroups para permitir el trabajo cooperativo sobre los documentos; Acrobat Catalog para crear índices usado conjuntamente con el paquete de búsqueda; Acrobat Capture para que pueda verse en los navegadores y permitir convertir la página explorada en PDF, etc. Los últimos desarrollos de los lectores de documentos PDF soportan no sólo enlaces de hipertexto, anotaciones, anclajes de página, marcos, etc. sino también imágenes, miniaturas, audio y vídeo en movimiento, etc; por lo que amplían enormemente el nivel 2 PostScript. El lector PDF de Adobe puede ser descargado de forma gratuita desde Adobe. Formatos que contienen disposición y contenidoOtra posibilidad de almacenamiento es almacenar la disposición del documento y el contenido de aquél separadamente. Esto es lo que persigue el estándar Open Document Architecture (ODA). En ODA se almacena la disposición del documento donde se pueden incluir páginas, áreas de título, sitios para cuadros etc. El estándar también permite definir la estructura lógica del documento: capítulos, párrafos etc. que se unen para la disposición del documento. Junto a esto, el estándar permite varias arquitecturas que se colocan en sitios en "la página" (esta página puede ser una hoja de papel o una pantalla y la disposición puede variar según el medio de salida). ODA estandariza una serie de arquitecturas, una de ellas es el estándar Computer Graphics Metafile, aunque engloba a otras muchas. Rich Text Format (RTF)
El Formato de Texto enriquecido o Rich Text Format (RTF) es un método para codificar el formato de texto y la estructura del documento mediante el juego de caracteres ASCII. Se puede utilizar en muchos paquetes de procesamiento de texto, pero existen muchos problemas hasta entre las versiones diferentes del mismo software.
Este formato de texto fue desarrollado por Donald Knuth a principios de los años 80 para hacer especial hincapié en los símbolos matemáticos. Se trata de codificar estos símbolos como una serie de caracteres ASCII para su manipulación mediante etiquetas que indican el formato de presentación.
LaTeX y TeX puro son dos paquetes TeX que definen un conjunto de etiquetas. Se trata de dos procesadores de textos usados por muchos matemáticos, físicos e informáticos. LaTeX/TeX es otro ejemplo de texto aumentado que contiene información aproximada de estructura (párrafos, símbolos matemáticos) y disposición. A menudo, TeX se usa dentro de otros formatos que permiten la inclusión de símbolos matemáticos y expresiones complejas. Documentos con Información EstructuradaCon el fin de hacer que los textos fueran compatibles en los distintos entornos físicos y lógicos y que se mantuviera la estructura de las páginas, allá por los años 60 se empezaron a desarrollar los primeros sistemas de edición de documentos con información estructurada. Así nació el llamado GenCode que utilizaba un nuevo código que proveía de este tipo de información estructurada y, posteriormente, se desarrolló el lenguaje SGML, con la intención de que un mismo archivo pudiera ser editado en diferentes aplicaciones y con distintos formatos de impresión. La información estructurada se lograba mediante una serie de marcas o etiquetas que describían la información, pero que no incluían ninguna información sobre la disposición.
En esta tesis hemos tratado ampliamente, al hablar de los lenguajes hipertextuales, de toda la gama de documentos creados al albur y desarrollo de estos lenguajes de etiquetado: SGML o Standard Generalised Mark-up Language que suministra un metalenguaje o sintaxis para describir definiciones rigurosas y descriptivas de documentos y que es independiente de cualquier sistema, dispositivo, lenguaje y uso y donde la información puede incluir información más allá del texto (referente a cómo tiene que ser procesado el documento, juego de caracteres que deben usarse, modelo lógico para el documento y flujo del documento en sí mismo); HTML o Hypertext Markup Language que prescribe formatos para presentación y demostración de los documentos hipertextuales en la World Wide Web; XML o Extensible Markup Language, un perfil de aplicación simple de SGML que fue desarrollado para suplir las carencias de HTML, y que actualmente es la base para el desarrollo de otros muchos lenguajes, etc. Documentos con Información de contenido
Por último, destacar, la utilización de metadatos como elementos para describir el contenido más allá de la estructuración del documento propiamente dicha. Documentos de este tipo son los que utilizan RDF o Resource Description Framework, un marco para describir el uso de metadatos; XTM o XML Topic Maps una especificación para normalizar los elementos y la notación utilizada para estructurar la información mediante la construcción de una red de enlaces semánticos que relacionen diferentes recursos informativos; la utilización de lenguajes de Ontologías como OWL, y otros vocabularios como el Dublin Core Metadate Iniciative o la la Iniciativa para la codificación de textos: TEI o Text Encoding Initiative, un proyecto interdisciplinar que desarrolla y difunde directrices para la codificación y el intercambio de textos explotables por ordenador, dentro del campo de las humanidades, aunque su uso transciende el tema de las humanidades, etc. Todas ellas son herramientas útiles para la descripción, indización y catalogación de documentos en la Web y que inician el camino hacia lo que se ha denominado Web Semántica.
Bibliografía:
Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores
|
|