XML Parser
Der große Vorteil bei der Nutzung von XML-Anwendungen sind die
vorhandenen und auch standardisierten Parser. Diese Parser sind meist frei verfügbar
und werden in unterschiedlichen Programmiersprachen angeboten. Einige Parser werden in Kapitel
3.4.2 vorgestellt.
Ein Parser ist ein Programm, das ein Dokument abarbeitet und die enthaltenen Informationen
darüberliegenden Schichten der Anwendung in irgendeiner Form zur Verfügung stellt.
Genau dies macht auch ein XML-Parser. Er arbeitet das XML-Dokument durch und stellt die
Informationen (also Elemente, Attribute, usw.) der Applikation zur Verfügung.
XML-Parser lassen sich nach zwei Kriterien unterscheiden: Zum einen ob sie validieren oder nicht, zum anderen
welche Schnittstelle sie zum Zugriff auf das XML-Dokument anbieten (SAX oder DOM).
Validierung eines XML Dokumentes bedeutet die Prüfung eines Dokumentes auf Wohlgeformtheit oder
Gültigkeit. Ein Dokument ist wohlgeformt (well-formed), wenn es die grundlegenden XML Bedingungen erfüllt,
das sind im einzelnen [Beck2000]:
- Alle Elemente müssen wieder geschlossen werden, d.h. zu jedem öffnenden Tag muß das
zugehörige schließende Tag explizit hingeschrieben werden.
- Leere Elemente (z.B.
<BR>
in HTML) weden durch einen Slash (/
)
vor der abschließenden spitzen Klammer gekennzeichnet (<BR/>
in XML).
- Alle Attributwerte müssen in Anführungszeichen eingeschlossen werden.
Ein Dokument ist gültig (valid), wenn es wohlgeformt ist und sich der Aufbau des
Dokumentes zusätzlich an die in der DTD vorgegebenen Regeln hält. Da die Validierung eines
Dokumentes sehr zeitaufwendig ist, sollte genau geprüft werden, ob eine Validierung sinnvoll
ist oder nicht. Wenn das zu parsende Dokument maschinell erstellt wurde, kann davon ausgegangen werden,
daß es ein gültiges XML-Dokument ist. In diesem Falle sollte von einer weiteren Validierung abgesehen werden.
Auf den Unterschied zwischen DOM und SAX Parsern wird in Kapitel 3.4.1
eingegangen.
Unterabschnitte