DOM y SAX

Dado que XML es un lenguaje utilizado ampliamente en el desarrollo de la World Wide Web, existen ya herramientas y estándares de programación para leer documentos XML. Las herramientas o programas que leen el lenguaje XML y comprueban si el documento es válido sintácticamente, se denominan analizadores o "parsers". Un parser XML es un módulo, biblioteca o programa que se ocupa de transformar un archivo de texto en una representación interna. En el caso de XML, como el formato siempre es el mismo, no necesitamos crear un parser cada vez que hacemos un programa, sino que existen un gran número de parsers o analizadores sintácticos disponibles que pueden averiguar si un documento XML cumple con una determinada gramática. Entre esos analizadores o parsers cabe destacar DOM y SAX.

DOM y SAX, son pues dos herramientas que sirven para analizar el lenguaje XML y definir la estructura de un documento, aunque existen otras muchas. Podemos hacer una distinción entre las herramientas que son validantes y las que son No validantes. Las primeras verifican que el documento, además de estar bien formado de acuerdo a las reglas de XML, responda a una estructura definida en una Definición del Tipo de Documento (DTD).

Los parsers DOM y SAX son independientes del lenguaje de programación y existen versiones particulares para Java, VisualBasic, C, etc.

DOM

El Modelo de Objetos del Documento parsers

o Document Object Model (DOM) es un modelo de objetos estandarizado para documentos HTML y XML. DOM es un conjunto de interfaces para describir una estructura abstracta para un documento XML. Los programas que acceden a la estructura de un documento a través de la interfaz de DOM pueden insertarse arbitrariamente, borrarse y reordenar los nodos de un documento XML, esto es, con DOM se puede modificar el contenido, la estructura y el estilo o presentación de los documentos. Todas estas funciones se realizan mediante llamadas a funciones y procedimientos que permiten acceder, cambiar, borrar o añadir nodos de información (datos o metadatos) de los documentos XML.

DOM es una una interfaz de programación de aplicaciones (API) para documentos HTML y XML. Define la estructura lógica de los documentos y el modo en que se accede y manipula un documento. El término documento en DOM se entiende de una forma amplia, pues XML se utiliza cada vez más como un medio para representar muchas clases diferentes de información que puede ser almacenada en sistemas diversos, y mucha de esta información se vería, en términos tradicionales, más como datos que como documentos. Sin embargo, XML presenta estos datos como documentos, y se puede usar el DOM para manipular estos datos.

Con el Modelo de Objetos del Documento los programadores pueden construir documentos, navegar por su estructura, y añadir, modificar o eliminar elementos y contenido. Se puede acceder a cualquier cosa que se encuentre en un documento HTML o XML, y se puede modificar, eliminar o añadir usando el Modelo de Objetos del Documento, salvo algunas excepciones.

Siendo una especificación del W3C, uno de los objetivos importantes del Modelo de Objetos del Documento es proporcionar una interfaz estándar de programación que pueda utilizarse en una amplia variedad de entornos y aplicaciones. El DOM se ha diseñado para utilizarse en cualquier lenguaje de programación como Java o ECMAScript (un lenguaje de scripts industrial basado en JavaScript y JScript.

Cuando nos referimos a interfaz al hablar de DOM (o de SAX), no nos estamos refiriendo a interfaz gráfica, sino a interfaz de aplicaciones. Una interfaz es un dispositivo que permite comunicar dos sistemas que no hablan el mismo lenguaje. Una Interfaz de Programación de Aplicaciones Niveles o interfaces

o API (Application Programming interface) es un conjunto de funciones o métodos usados para acceder a cierta funcionalidad. La interfaz se encarga de mantener el diálogo con los datos para poder tener acceso a ellos y manipularlos.

La utilización de APIs es muy común cuando tenemos un conjunto de datos que queremos tratar o manipular y se aplica, sobre todo, para acceder a bases de datos y realizar tareas que están a caballo entre las aplicaciones y las bases de datos. Estas tareas se realizan bien a través del servidor de base de datos, o bien a través del cliente. Esto quiere decir, que puede darse el caso de que el cliente conste de las tres primeras interfaces o niveles, o que se encuentren las dos últimas en el servidor (ver imagen adjunta). La interfaz correspondiente a la base de datos, es donde se encontrará el servidor y toda la información depositada en él.

El DOM es, pues, un API o interfaz de programación para documentos. DOM guarda una gran similitud con la estructura del documento al que modeliza y muestra los documentos con una estructura lógica que es muy parecida a un árbol.

Sin embargo, el DOM no especifica que los documentos deban ser desarrollados como un árbol o un bosque, ni tampoco especifica cómo deben implementarse las relaciones entre objetos. El DOM es un modelo lógico que puede desarrollarse de la manera que sea más conveniente, por eso se debe hablar de un modelo de estructura en general, y no de estructura en forma de árbol, en particular.

Una propiedad importante de los modelos de estructura del DOM es su isomorfismo estructural: si dos desarrollos cualesquiera del Modelo de Objetos del Documento se usan para crear una representación del mismo documento, ambos crearán el mismo modelo de estructura, con exactamente los mismos objetos y relaciones.

El nombre de DOM o "Modelo de Objetos del Documento" se adoptó porque se trata de un "modelo de objetos" en el sentido tradicional del diseño orientado a objetos: los documentos se modelizan usando objetos, y el modelo comprende no solamente la estructura de un documento, sino también su comportamiento y el de los objetos de los cuales se compone. Esto significa que los nodos del diagrama obtenido mediante DOM no representan una estructura de datos, sino que representan objetos, los cuales pueden tener funciones e identidad. Como modelo de objetos, el DOM identifica:

Tradicionalmente, la estructura de los documentos SGML se ha representado mediante un modelo de datos abstractos, no con un modelo de objetos. En un modelo de datos abstractos, el modelo se centra en los datos. En los lenguajes de programación orientados a objetos, los datos se encapsulan en objetos que ocultan los datos, protegiéndolos de su manipulación directa desde el exterior. Las funciones asociadas con estos objetos determinan cómo pueden manipularse los objetos, y son parte del modelo de objetos.

El Modelo de Objetos del Documento no es un conjunto de estructuras de datos, sino un modelo de objetos que especifica interfaces. Aunque la especificación del W3C contiene diagramas que muestran relaciones padre/hijo, éstas son relaciones lógicas definidas por las interfaces de programación, no representaciones de ninguna estructura interna de datos particular.

El Modelo de Objetos del Documento no define "la semántica interna real" de los lenguajes XML o de HTML. El DOM es un modelo de programación diseñado para respetar las semánticas establecidas por el W3C en otras especificaciones. El DOM no tiene ninguna consecuencia en el modo en que se escriben los documentos XML y HTML; cualquier documento que pueda escribirse con estos lenguajes puede ser representado en el DOM.

Así pues, DOM es un conjunto de interfaces y objetos diseñado para manipular documentos HTML y XML que se puede desarrollar usando otros sistemas y lenguajes específicos.

Las especificaciones del W3C que regulan el Modelo de Objetos del Documento son las siguientes:

El Simple API for XML (SAX) es una interfaz simple para aplicaciones XML. Fácil e intuitiva, muchos programadores de Java la utilizan, ya que se usa especialmente en situaciones en los que los archivos XML ya están en una forma que es estructuralmente similar a la que deseamos obtener.

Por lo general, se usa SAX cuando la información almacenada en los documentos XML, es decir, los datos, han sido generados por máquina o son legible por máquina. En este caso, SAX es la forma más directa de API para que los programas tengan acceso a esa información. Los datos generados y legibles por máquina incluyen algunos elementos como los siguientes:

Así, los datos generados por la máquina son información que normalmente tenemos creada en estructuras de datos y clases para Java. Un ejemplo simple de este tipo, puede ser una libreta de direcciones. La libreta en un archivo XML contiene puramente datos que pueden ser codificados como texto usando XML, no se trata, pues de algo similar a un documento creado con un procesador de textos, sino a datos en sí mismos.

Cuanto los datos son de este tipo, lo corriente es crear una estructura de datos y clases, es decir, un modelo de objetos (object models) para poder ordenar, manipular y almacenar estos datos. SAX permite crear rápidamente una herramienta u operador de clase que puede crear instancias de los modelos de objetos basados en el almacenamiento de datos de los documentos. Por ejemplo, un operador de documentos SAX que lee un documento XML que contiene una Libreta de direcciones y crea una clase Libreta de direcciones que puede usarse para acceder a esta información. El documento XML Libreta de direcciones contiene elementos Persona, los cuales contienen, por ejemplo, los elementos nombre y correo electrónico. El modelo de objeto Libreta de direcciones contendría las siguientes clases:

Así el operador del documento Libreta de direcciones SAX, es el responsable de colocar los elementos persona dentro de los objetos Persona, y almacena todo en un objeto: Libreta de Direcciones. Este documento coloca los elementos nombre y correo electrónico dentro de una cadena de objetos.

Comparación entre SAX y DOM

Y lo que produce es un árbol de nodos. En este ejemplo produciría algo así -considerando una notación tipo LISP- en la que el primer elemento de las listas es la raíz::

nodo_actual = null
define fstart(elemento) := ( nodo_actual == null ) ? nodo_actual = elemento : nodo_actual.agregaHijo( elemento )
define fend(elemento) := nodo_actual = nodo_actual.obtienePadre()
define ftext(texto) := nodo_actual.guardaContenido( texto )
saxParse( document, fstart, fend, ftext )
return nodo_actual

Hay que agregar una serie de salvedades que permiten ir verificando en línea que se cierren todos los elementos que se abran, etc.

El operador del documento SAX tiene elementos para mapear los objetos. Si la información está estructurada de alguna manera que pueda ser fácil crear este mapa, se debería usar API de SAX. Por el contrario, si los datos están mucho mejor representados en forma de árbol, entonces se debería usar DOM.

Un parser DOM, por el contrario, opera con la corriente completa de entrada XML, es decir, lee todo el documento completo y devuelve un Document Object. Document, esto es, construye un árbol en memoria que refleja toda la estructura del documento. La aplicación recorre el árbol realizando su procesamiento ya que el documento devuelto por el parser DOM tiene un API que permite manipular el árbol (virtual) de Node objects. Éste representa la estructura de la entrada XML.

La principal diferencia entre DOM y SAX es que mientras el primero tiene acceso al documento completo, esto es, que todos los elementos y atributos están disponibles a la vez, en SAX sólo está disponible el elemento actual.

Bibliografía:

Título: Hipertexto, el nuevo concepto de documento en la cultura de la imagen Autora: María Jesús Lamarca Lapuente (currículo personal) Contacta Tesis doctoral. Universidad Complutense de Madrid URL: http://www.hipertexto.info Fecha de Actualización: 08/12/2013 184 páginas web. 2.627 archivos. 2.208 imágenes. Tamaño: 52.406Kb. 34.389 enlaces (10.436 externos y 23.953 internos)	Esta obra está licenciada bajo las siguientes condiciones: Creative Commons Reconocimiento-NoComercial-NoDerivados-Licencia España 2.5.
OTRAS PÁGINAS DE LA AUTORA
Blog El Cultural a la Puerta:: http://puertadetoledo.blogspot.com/ Ageteca. Base de Datos de Gestión Cultural: http://www.agetec.org/ageteca Fundación Ricardo Lamarca, Ajedrez y cultura http://www.fundacionlamarca.es	Blog La artesa digital http://artesadigital.blogspot.com.es Especial Poesía: Hasta allí hemos llegado Flickr La artes@ digital: Galería de fotos mundo digital y mundo analógico: http://www.flickr.com/photos/artesadigital/ Blog Miembras: Usos lingüísticos, políticos y sociales del lenguaje http://miembras.blogspot.com

Mapa de navegación / Tabla de contenido / Mapa conceptual / Tabla de documentos / Buscador / Bibliografía utilizada / Glosario de Términos / Índice Temático / Índice de Autores

DOM

Comparación entre SAX y DOM

Cómo operan DOM y SAX

Cuándo usar DOM y cuándo usar SAX:

Bibliografía: