14.5 Serielle Verarbeitung von XML mit SAX 

Die Verarbeitung von XML-Dateien mit SAX ist vor dem Erscheinen von StAX die schnellste und speicherschonendste Methode gewesen. Der Parser liest die XML-Datei seriell, und ruft für jeden Bestandteil der XML-Datei eine spezielle Methode auf. Der Nachteil ist, dass immer nur ein kleiner Bestandteil einer XML-Datei betrachtet wird und nicht die gesamte Struktur zur Verfügung steht.
14.5.1 Schnittstellen von SAX 

Die bei der Verarbeitung mit SAX anfallenden Ereignisse sind in verschiedenen Schnittstellen festgelegt. Die wichtigste Schnittstelle ist org.xml.sax.ContentHandler. Die Schnittstelle legt die wichtigsten Methoden für die Verarbeitung fest, denn die Methoden ruft der Parser beim Verarbeiten der XML-Daten auf.
Die Klasse org.xml.sax.helpers.DefaultHandler ist eine leere Implementierung aller Operationen aus ContentHandler. Zusätzlich implementiert DefaultHandler die Schnittstellen DTDHandler, EntityResolver und ErrorHandler. Auf diese Schnittstellen wird hier nicht näher eingegangen. Eine genaue Beschreibung ist in dem JAXP-Tutorial von Sun (http://java.sun.com/webservices/jaxp/docs.html) zu finden.
14.5.2 SAX-Parser erzeugen 

Um zum Parsen einer Datei zu kommen, führt der Weg über zwei Fabrikmethoden.
Listing 14.11 com/tutego/insel/sax/SaxParty.java, main()
SAXParserFactory factory = SAXParserFactory.newInstance(); SAXParser saxParser = factory.newSAXParser();
Mit dem SAXParser erledigt parse() das Einlesen. Die Methode benötigt die Datei und eine Implementierung der Callback-Funktionen, die wir als PartyHandler bereitstellen.
DefaultHandler handler = new PartyHandler(); saxParser.parse( new File("party.xml"), handler );
14.5.3 Die wichtigsten Methoden der Schnittstelle ContentHandler 

DefaultHandler ist eine Klasse, die alle Operationen aus EntityResolver, DTDHandler, ContentHandler und ErrorHandler leer implementiert. Unsere Unterklasse PartyHandler erweitert die Klasse DefaultHandler und überschreibt interessantere Funktionen, die wir mit Leben füllen wollen.
Listing 14.12 com/tutego/insel/sax/PartyHandler.java
package com.tutego.insel.sax; import org.xml.sax.Attributes; import org.xml.sax.SAXException; import org.xml.sax.helpers.DefaultHandler; class PartyHandler extends DefaultHandler {
Beim Start und Ende des Dokuments ruft der Parser die Methoden startDocument() und endDocument() auf. Unsere überschriebenen Methoden geben nur eine kleine Meldung auf dem Bildschirm aus:
@Override public void startDocument() { System.out.println( "Document starts." ); } @Override public void endDocument() { System.out.println( "Document ends." ); }
Sobald der Parser ein Element erreicht, ruft er die Methode startElement() auf. Der Parser übergibt der Methode die Namensraumadresse, den lokalen Namen, den qualifizierenden Namen und Attribute.
@Override public void startElement( String namespaceURI, String localName, String qName, Attributes atts ) throws SAXException { System.out.println( "namespaceURI: " + namespaceURI ); System.out.println( "localName: " + localName ); System.out.println( "qName: " + qName ); for ( int i = 0; i < atts.getLength(); i++ ) System.out.printf( "Attribut no. %d: %s = %s%n", i, atts.getQName( i ), atts.getValue( i ) ); }
Unsere Methode gibt alle notwendigen Informationen eines Elements aus. Falls kein spezieller Namensraum vergeben ist, sind die Strings namespaceURI und localName leer. Der String qName ist immer gefüllt. Die Attribute enthält der Container Attributes. Das schließende Tag eines Elements verarbeitet die Methode endElement(String namespaceURI, String localName, String qName). Bis auf die Attribute sind auch bei dem schließenden Tag alle Informationen für die Identifizierung des Elements vorhanden. Auch hier sind die Strings namespaceURI und localName leer, falls kein spezieller Namensraum verwendet wird.
Den Inhalt eines Elements verarbeitet unsere letzte Methode characters():
@Override public void characters( char[] ch, int start, int length ) { System.out.println( "Characters:" ); for ( int i = start; i < (start + length); i++ ) System.out.printf( "%1$c (%1$x) ", (int) ch[i] ); System.out.println(); } }
Es ist nicht festgelegt, ob der Parser den Text an einem Stück liefert oder in kleinen Stücken. Zur besseren Sichtbarkeit geben wir neben dem Zeichen selbst auch seinen Hexadezimalwert aus. So beginnt die Ausgabe mit den Zeilen:
Document starts. namespaceURI: localName: qName: party Attribut no. 0: datum = 31.12.01 Characters: (a) (a) (20) (20) (20) namespaceURI: localName: qName: gast Attribut no. 0: name = Albert Angsthase Characters: (a) (20) (20) (20) (20) (20) (20) namespaceURI: localName: qName: getraenk Characters: W (57) e (65) i (69) n (6e) Characters: (a) (20) (20) (20) (20) (20) (20) namespaceURI: localName: qName: getraenk Characters: B (42) i (69) e (65) r (72)
14.5.4 ErrorHandler und EntityResolver 

Immer dann, wenn der Parser einen Fehler melden muss, ruft er die im ErrorHandler deklarierten Operationen auf.
- void warning( SAXParseException exception )
- void error( SAXParseException exception )
- void fatalError( SAXParseException exception )
Da der DefaultHandler die Methoden warning() und error() leer implementiert, fällt kein Fehler wirklich auf; nur bei fatalError() leitet die Methode den empfangenen Fehler mit throw weiter. Das heißt aber auch, dass zum Beispiel schwache Validierungsfehler nicht auffallen. Eine Implementierung kann aber wie folgt aussehen:
public void error( SAXParseException e ) throws SAXException { throw new SAXException( saxMsg(e) ); } private String saxMsg( SAXParseException e ) { return "Line: " + e.getLineNumber() + ", Column: " + e.getColumnNumber() + ", Error: " + e.getMessage(); }
Die Klasse DefaultHandler implementiert ebenso die Schnittstelle EntityResolver, aber auch hier einfach die eine Methode InputSource resolveEntity (String publicId, String systemId) mit einem return null. Das heißt, die Standardimplementierung löst keine Entities auf. Eigene Implementierungen sehen meist im Kern so aus:
InputStream stream = MyEntityResolver.class.getResourceAsStream( dtd ); return new InputSource( new InputStreamReader( stream ) );
Die Variable dtd ist mit dem Pfadnamen einer DTD belegt, die im Klassenpfad liegen muss.