Texto

María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen.

Existen una gran variedad de formatos para crear archivos textuales, todo depende del software utilizado. Algunas aplicaciones sólo permiten almacenar texto simple, pero otros procesadores de texto se han convertido en herramientas muy complejas que permiten una gran variedad de formatos para crear archivos de texto y que ofrecen también la posibilidad de convertir unos formatos a otros. Algunos de estos formatos son de simple almacenamiento del texto (txt), otros permiten establecer la tipografía, estilos y apariencia de párrafos, páginas, etc.  (doc), otros inciden en la forma o formato de impresión utilizando un sistema de marcadores que permite definir el contenido de las páginas con independencia del dispositivo de salida utilizado (PostScript) y algunos aseguran la integridad del contenido y la presentación del documento tal y como ha sido guardado (PDF o formatos de documentos portables). Incluso hay softwares específicos que sirven para la edición y maquetación de documentos largos y complejos.

Formatos de texto: 

Archivos de texto sin formato:

Como hemos afirmado anteriormente, todos los formatos de archivo utilizados en Internet pueden ser divididos en 2 tipos: formato ASCII y formato binario. Pues bien, uno de los formatos de almacenamiento de textos más antiguos es la norma ASCII, una forma de codificar un alfabeto que consta de 128 caracteres o símbolos.

ASCII

El código ASCII (The American Standard Code for Information Interchange o Código estándar Estadounidense para el Intercambio de Información) es un formato de almacenamiento general que guarda los datos mediante texto simple. Por ejemplo, en código ASCII, el símbolo @ es la combinación de las teclas ALT y el Número 64. En la Web existen algunas páginas que muestran la tabla completa de los caracteres del código ASCII (podemos ver una de estas tablas en: http://www.abcdatos.com/utiles/ascii.html). La principal ventaja de utilizar código plano es que puede ser leído por cualquier tipo de ordenador y por cualquier sistema sin necesidad de utilizar de utilizar programas específicos.

Archivos de texto plano ASCII son los archivos HTM y HTML en los que están escritos los documentos de la Web y que contienen información estructurada. Este tipo de archivos requieren un navegador web para poder visualizar la información. Con el tiempo y, en la práctica, aunque se limitan a describir la estructura y el contenido del documento y no el formato de la página y su apariencia, los archivos HTML se han convertido también en formatos de presentación.

También son archivos de texto plano ASCII los documentos txt. Estos documentos pueden ser visualizados con cualquier procesador de textos complejo (tipo Word) o con un sencillo editor de textos (Bloc de Notas), podemos convertir en texto plano codificado en simple ASCII.

El desarrollo de las escrituras digitales alfabéticas hizo que del código de 128 caracteres se pasara a 256 caracteres y otros códigos ASCII ampliados. De esta forma, la ISO creó una norma llamada Unicode y basada en un estándar de un juego de caracteres más amplio que sirviera para diferentes lenguas y escrituras. Se trata de la norma ISO 10646, equivalente al estándar UNICODE.

[Volver]

Documentos con formato

Formatos de documentos tipo .doc elaborados con un procesador de textos

Se trata de formatos para PCs, comunes para archivos de textos formateados en algún procesador o editor de texto que admita formato, talesestilos en un procesador de textos como Microsoft Word o Corel Word Perfect. Estos formatos de escritura utilizan el código ASCII, aunque ocasionalmente pueden encontrarse archivos con esta extensión que no sean documentos de texto. En la actualidad, la mayor parte de los procesadores de texto no sólo incluyen muchas opciones y características enfocadas al tratamiento tipográfico y el diseño textual, como tipos de letra, estilos, listas numeradas, disposición del texto en columnas, tablas, etc, sino que también permiten la inclusión de imágenes, listas con viñetas, marcadores, gráficos, objetos de audio, vídeo, etc, por lo que los documentos compuestos únicamente por texto son cada vez más escasos, ya que se suelen combinar varias morfologías dentro del mismo documento. Muchos procesadores de texto tienen licencia de uso, pero existen otros muchos que se pueden descargar de la red y son de uso libre y gratuito, como Abyword, Tiny Easy Word, Crypt Edit, etc. Además de los editores de texto, existen programas que tratan de forma más sofisticada el texto y que sirven para la autoedición y maquetación de documentos, tales como QuarkXpress, Microsoft Publisher, Corel Ventura, Adobe InDesign, etc.

Formatos de descripción de página

Hay formatos de documento que procuran conservar la imagen de una página entera impresa. La página puede almacenarse usando un lenguaje de descripción de página (PDL) donde se almacenan juntos texto y gráficos con información de salida como disposición, fuente, estilo de línea, etc. Esto significa que se almacena más información dentro del formato de trama. Los PDLs se diseñan para presentación de formateados completos, y en los dispositivos de salida se imprime la forma final de las imágenes de página (no-revisables). 'El papel virtual ' es una buena metáfora para los PDLs. La mayor parte de PDLS se orientan hacia la presentación de páginas sobre impresoras láser. 

[Volver]

PostScript (PS, EPS)

Un archivo PostScript es un archivo de tipo ASCII que, aunque técnicamente es un archivo de texto plano, es ilegible excepto para una impresora Postcript o para un visualizador (tipo Ghostscript).

 

PostScript es un lenguaje de descripción de página o Page Description Language (PDL) que en su versión comercial fue diseñado por Adobe Systems Inc en 1985 y que ha tenido mucha influencia en el aspecto final del Lenguaje de Descripción de Página Estandarizado, ya que existe un estándar de ISO, el SPDL. El desarrollo del lenguaje PostScript tenía como objetivo representar el texto y las imágenes de igual forma en el papel que sobre la pantalla, esto es, respetar el contenido con independencia del dispositivo de salida utilizado.

 

Comparado con otros formatos más orientados a objetos gráficos, un archivo gráfico PostScript es muy difícil de modificar y resulta poco práctico corregir un documento de este tipo. Aunque independiente del dispositivo, la imagen PostScript es un modelo que exige dispositivos de trama para su presentación, por lo que precisa mucha memoria. PostScritp presenta muchas ventajas para la salida del color de alta resolución. Se afirma que es tan bueno como una copia impresa en papel y que ofrece una gran flexibilidad para el cambio de escala y tamaño sin pérdida de información.

 

El PostScript encapsulado o Encapsulated PostScript (EPS) es un subconjunto de PostScript que permite almacenar información en lenguaje PostScript, pero excluye el tamaño o la información sobre la colocación. Esto significa que una parte de una página puede introducirse en otro documento. Con frecuencia se usa para la inclusión de gráficos dentro de documentos donde éstos han sido producidos por un paquete diferente al que se usa para producir el texto.

 

Existen varios nivel PostScript. El Nivel 2 es muy útil para páginas de alta calidad cuyo fin es la impresión, aunque la equivalencia total no puede garantizarse debido a la impresora utilizada. El formato que sí garantiza la fidelidad de la página es PDF.

[Volver]

Portable Document Format (PDF)

Portable Document Format o formato de Documento Portable. Se trata de un formato propietario desarrollado por Adobe Systems Inc. que permite que los documentos formateados (que contienen diseño gráfico) sean transferidos por Internet y se visualicen de la misma manera en cualquier ordenador y sistema. Se trata de un tipo de archivo binario. Este tipo de archivo requiere de un software tipo Adobe Acrobat Reader para ver archivos, y puede ser descargado del sitio web de Adobe, pero también existen otros programas no propietarios que sirven para generar o visualizar este tipo de archivos.

Los documentos PDF se enmarcan dentro del concepto de PostScript, y, en concreto, Adobe ha desarrollado enormemente este concepto para definir su Portable document format (PDF) que se incluye dentro de un software llamado Acrobat y que consta de varios módulos. El más conocido es Acrobat Reader o lector de documentos PDF porque se trata de un software libre, aunque existen otras funcionalidades desarrolladas por diferentes módulos (Acrobat PDF Writer o software de interfaz, Acrobat Exchange que permite alguna corrección, anotaciones, enlaces y comandos de seguridad para documentos; Acrobat Search para búsqueda de documentos; Acrobat Type Manager que asegura el uso de distintas fuentes y la resolución para dispositivos; Acrobat Distiller para conversión de PostScript o EPS; Adobe Acrobat for Workgroups para permitir el trabajo cooperativo sobre los documentos; Acrobat Catalog para crear índices usado conjuntamente con el paquete de búsqueda; Acrobat Capture para que pueda verse en los navegadores y permitir convertir la página explorada en PDF, etc.

Los últimos desarrollos de los lectores de documentos PDF soportan no sólo enlaces de hipertexto, anotaciones, anclajes de página, marcos, etc. sino también imágenes, miniaturas, audio y vídeo en movimiento, etc; por lo que amplían enormemente el nivel 2 PostScript. El lector PDF de Adobe puede ser descargado de forma gratuita desde Adobe.

[Volver]

Formatos que contienen disposición y contenido

ODA

Otra posibilidad de almacenamiento es almacenar la disposición del documento y el contenido de aquél separadamente. Esto es lo que persigue el estándar Open Document Architecture (ODA). En ODA se almacena la disposición del documento donde se pueden incluir páginas, áreas de título, sitios para cuadros etc. El estándar también permite definir la estructura lógica del documento: capítulos, párrafos etc. que se unen para la disposición del documento. Junto a esto, el estándar permite varias arquitecturas que se colocan en sitios en  "la página" (esta página puede ser una hoja de papel o una pantalla y la disposición puede variar según el medio de salida). ODA estandariza una serie de arquitecturas, una de ellas es el estándar Computer Graphics Metafile, aunque engloba a otras muchas.

[Volver]

Rich Text Format (RTF)

 

El Formato de Texto enriquecido o Rich Text Format (RTF) es un método para codificar el formato de texto y la estructura del documento mediante el juego de caracteres ASCII. Se puede utilizar en muchos paquetes de procesamiento de texto, pero existen muchos problemas hasta entre las versiones diferentes del mismo software.

[Volver]

 

TeX

 

Este formato de texto fue desarrollado por Donald Knuth a principios de los años 80 para hacer especial hincapié en los símbolos matemáticos. Se trata de codificar estos símbolos como una serie de caracteres ASCII para su manipulación mediante etiquetas que indican el formato de presentación.

 

LaTeX y TeX puro son dos paquetes TeX que definen un conjunto de etiquetas. Se trata de dos procesadores de textos usados por muchos matemáticos, físicos e informáticos. LaTeX/TeX es otro ejemplo de texto aumentado que contiene información aproximada de estructura (párrafos, símbolos matemáticos) y disposición. A menudo, TeX se usa dentro de otros formatos que permiten la inclusión de símbolos matemáticos y expresiones complejas.

[Volver]

Documentos con Información Estructurada

Con el fin de hacer que los textos fueran compatibles en los distintos entornos físicos y lógicos y que se mantuviera la estructura de las páginas, allá por los años 60 se empezaron a desarrollar los primeros sistemas de edición de documentos con información estructurada. Así nació el llamado GenCode que utilizaba un nuevo código que proveía de este tipo de información estructurada y, posteriormente, se desarrolló el lenguaje SGML, con la intención de que un mismo archivo pudiera ser editado en diferentes aplicaciones  y con distintos formatos de impresión. La información estructurada se lograba mediante una serie de  marcas o etiquetas que describían la información, pero que no incluían ninguna información sobre la disposición. 

 

En esta tesis hemos tratado ampliamente, al hablar de los lenguajes hipertextuales, de toda la gama de documentos creados al albur y desarrollo de estos lenguajes de etiquetado: SGML o Standard Generalised Mark-up Language  que suministra un metalenguaje o sintaxis para describir definiciones rigurosas y descriptivas de documentos y que es independiente de cualquier sistema, dispositivo, lenguaje y uso y donde la información puede incluir información más allá del texto (referente a cómo tiene que ser procesado el documento, juego de caracteres que deben usarse, modelo lógico para el documento y flujo del documento en sí mismo);  HTML o Hypertext Markup Language que prescribe formatos para presentación y demostración de los documentos hipertextuales en la World Wide Web; XML o Extensible Markup Language, un perfil de aplicación simple de SGML que fue desarrollado para suplir las carencias de HTML, y que actualmente es la base para el desarrollo de otros muchos lenguajes, etc.

[Volver]

Documentos con Información de contenido

 

Por último, destacar, la utilización de metadatos como elementos para describir el contenido más allá de la estructuración del documento propiamente dicha. Documentos de este tipo son los que utilizan RDF o Resource Description Framework,  un marco para describir el uso de metadatos; XTM o XML Topic Maps una especificación para normalizar los elementos y la notación utilizada para estructurar la información mediante la construcción de una red de enlaces semánticos que relacionen diferentes recursos informativos; la utilización de lenguajes de Ontologías como OWL, y otros vocabularios como el Dublin Core Metadate Iniciative o la la Iniciativa para la codificación de textos: TEI o Text Encoding Initiative, un proyecto interdisciplinar que desarrolla y difunde directrices para la codificación y el intercambio de textos explotables por ordenador, dentro del campo de las humanidades, aunque su uso transciende el tema de las humanidades, etc. Todas ellas son herramientas útiles para la descripción, indización y catalogación de documentos en la Web y que inician el camino hacia lo que se ha denominado Web Semántica.

[Volver]

 


Bibliografía:

 

ABC Datos. Códigos ASCII (0-127) http://www.abcdatos.com/utiles/ascii.html

 

Adobe. PDF de Adobe. http://www.adobe.es/products/acrobat/adobepdf.html

 

Adobe. Adobe Reader: Descargar Adobe Reader. http://www.adobe.es/products/acrobat/readstep2.html

GARCÍA CAMARERO, Ernesto. GARCÍA MELERO, Luis Ángel. La biblioteca digital. Madrid, Arco Libros, 2001.

  Ghostscript.com http://www.ghostscript.com/

ISO/IEC 10646-1:1993, Information Technology—Universal Multiple-Octet1 Coded Character Set (UCS)—Part 1: Architecture and Basic Multilingual Plane. (ISO/IEC 10646:2003). http://www.iso.org

LaTeX Project.org  LaTeX: A document preparation system.  http://www.latex-project.org/

TeX Users Group (TUG). http://www.tug.org/

Unicode Home Page.  http://www.unicode.org/

  Wikipedia. Encaptulated PostScript. http://en.wikipedia.org/wiki/Encapsulated_PostScript

  Wikipedia. Portable Document Format. http://en.wikipedia.org/wiki/Portable_Document_Format

  Wikipedia. PostScript. http://en.wikipedia.org/wiki/PostScript

  Wikipedia. TeX. http://es.wikipedia.org/wiki/TeX


 

 Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen
 Autora: María Jesús Lamarca Lapuente (currículo personal)

 Contacta

 Tesis doctoral. Universidad Complutense de Madrid

 URL: http://www.hipertexto.info

 Fecha de Actualización: 08/12/2013   

 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb.
 34.389 enlaces (10.436 externos y 23.953 internos)
  

Esta obra está licenciada bajo las siguientes condiciones: 
Creative Commons License
Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.

 


OTRAS PÁGINAS DE LA AUTORA
 

           Blog El Cultural a la PuertaBlog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ 

                                                                                                                AGETECA. Base de Datos de Gestión Cultural
                                                                                                                 Ageteca. Base de Datos de Gestión Cultural:
      
                                                                                                    http://www.agetec.org/ageteca

Fundación Ricardo Lamarca, ajedrez y cultura

Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es

 

 

La artesa digital

Blog La artesa digital
http://artesadigital.blogspot.com.es

Especial Poesía: Hasta allí hemos llegado

Blog La artesa digital Flickr La artes@ digital: Galería de fotos mundo
 digital y mundo analógico: http://www.flickr.com/photos/artesadigital/

Blog miembras

Blog Miembras: usos lingüísticos, políticos y sociales del lenguajeBlog Miembras: Usos lingüísticos, políticos
 y sociales del lenguaje http://miembras.blogspot.com

 

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores