13.3 Die Java-APIs für XML
 
Als XML sich etablierte, bildete es mit Java ein gutes Gespann. Einer der Gründe lag im Unicode: XML ermöglicht Dokumente mit beliebigen Zeichenkodierungen, die in Java abgebildet werden konnten. Mittlerweile ist diese Abbildung nicht mehr so einfach, da in XML schnell eine Kodierung mit 32 Bit ausgewählt werden kann, die in Java nur Surrogate abbilden – nun macht die Verarbeitung keinen Spaß mehr.
Für XML-basierte Daten gibt es drei Verarbeitungstypen:
|
DOM-orientierte APIs (repräsentieren den XML-Baum im Speicher): W3C-DOM, JDOM, dom4j, XOM, … |
|
Push-API (Nach dem Callback-Prinzip ruft der Parser Methoden auf und meldet Elementvorkommen): SAX (Simple API for XML) ist der populäre Repräsentant. |
|
Pull-API (Wie ein Tokenizer wird über die Elemente gegangen): Dazu gehören XPP (XML Pull Parser) wie sie der StAX-Standard definiert. |
Während DOM das gesamte Dokument in einer internen Struktur einliest und bereitstellt, verfolgt SAX einen ereignisorientierten Ansatz. Das Dokument wird in Stücken geladen, und immer dann, wenn ein angemeldetes Element beim Parser vorbeikommt, meldet er dies in Form eines Ereignisses, das für die Verarbeitung abgefangen werden kann.
13.3.1 Das Document Object Model (DOM)
 
DOM ist eine Entwicklung vom W3C und wird von vielen Programmiersprachen unterstützt. Das Standard-DOM ist so konzipiert, dass es unabhängig von einer Programmiersprache ist und eine strikte Hierarchie erzeugt. DOM definiert eine Reihe von Schnittstellen, die durch konkrete Programmiersprachen implementiert werden.
13.3.2 Simple API for XML Parsing (SAX)
 
SAX ist zum schnellen Verarbeiten der Daten von David Megginson als Public-Domain entworfen worden. SAX ist im Gegensatz zu DOM nicht so speicherhungrig, weil das XML-Dokument nicht vollständig im Speicher abgelegt ist, und daher auch für sehr große Dokumente geeignet. Da SAX auf einem Ereignismodell basiert, wird die XML-Datei wie ein Datenstrom gelesen, und für erkannte Elemente wird ein Ereignis ausgelöst. Dies ist aber mit dem Nachteil verbunden, dass wahlfreier Zugriff auf ein einzelnes Element nicht ohne Zwischenspeicherung möglich ist.
Klassische Anwendungen für SAX:
|
Darstellung der XML-Datei in einem Browser |
|
Suche nach bestimmten Inhalten |
|
Einlesen von XML-Dateien, um eine eigene Datenstruktur aufzubauen |
Für einige Anwendungen ist es erforderlich, die gesamte XML-Struktur im Speicher zu verarbeiten. Für diese Fälle ist eine Struktur, wie sie DOM bietet, notwendig:
|
Sortierung der Struktur oder einer Teilstruktur der XML-Datei |
|
Auflösen von Referenzen zwischen einzelnen XML-Elementen |
|
Interaktives Arbeiten mit der XML-Datei |
Ob in eigenen Programmen DOM oder SAX eingesetzt wird, ist von Fall zu Fall unterschiedlich. In manchen Fällen ist dies auch Geschmackssache, doch ärgerlicherweise unterscheidet sich das Programmiermodell, sodass eine Umstellung nicht so angenehm ist. Wünschenswert ist eine API, die einen unabhängigen Zugriff auf XML-Daten anbietet.
13.3.3 Java Document Object Model (JDOM)
 
JDOM ist eine einfache Möglichkeit, XML-Dokumente leicht und effizient mit einer schönen Java-API zu nutzen. Im Gegensatz zu SAX und DOM, die unabhängig von einer Programmiersprache sind, wurde JDOM speziell für Java entwickelt. Während das Original-DOM keine Rücksicht auf die Java-Datenstrukturen nimmt, nutzt JDOM konsequent die Collection-API. Auch ermöglicht JDOM eine etwas bessere Performance und eine bessere Speichernutzung als beim Original-DOM.
13.3.4 Pull-API StAX
 
Im Gegensatz zu SAX, bei dem Methoden bereit gestellt werden, die beim Parsen aufgerufen werden, wird bei der Pull-API aktiv der nächste Teil eines XML-Dokuments angefordert. Das Prinzip entspricht dem Iterator Design Pattern, das auch von der Collection-API bekannt ist. Es werden die beiden grundsätzlichen Verarbeitungsmodelle »Iterator« und »Cursor« unterschieden. Die Verarbeitung mit dem Iterator ist flexibler, aber auch ein biss-chen aufwändiger. Die Cursor-Verarbeitung ist einfacher und schneller aber, nicht so flexibel. Beide Formen sind sich sehr ähnlich. Hier werden beide Verfahren vorgestellt.
|