Galileo Computing < openbook > Galileo Computing - Professionelle Bücher. Auch für Einsteiger.
Professionelle Bücher. Auch für Einsteiger.

Inhaltsverzeichnis
Vorwort
1 Java ist auch eine Sprache
2 Sprachbeschreibung
3 Klassen und Objekte
4 Der Umgang mit Zeichenketten
5 Mathematisches
6 Eigene Klassen schreiben
7 Angewandte Objektorientierung
8 Exceptions
9 Die Funktionsbibliothek
10 Threads und nebenläufige Programmierung
11 Raum und Zeit
12 Datenstrukturen und Algorithmen
13 Dateien und Datenströme
14 Die eXtensible Markup Language (XML)
15 Grafische Oberflächen mit Swing
16 Grafikprogrammierung
17 Netzwerkprogrammierung
18 Verteilte Programmierung mit RMI und Web-Services
19 JavaServer Pages und Servlets
20 Applets
21 Midlets und die Java ME
22 Datenbankmanagement mit JDBC
23 Reflection und Annotationen
24 Logging und Monitoring
25 Sicherheitskonzepte
26 Java Native Interface (JNI)
27 Dienstprogramme für die Java-Umgebung
A Die Begleit-DVD
Stichwort

Download:
- ZIP, ca. 12,5 MB
Buch bestellen
Ihre Meinung?

Spacer
<< zurück
Java ist auch eine Insel von Christian Ullenboom
Programmieren mit der Java Standard Edition Version 6
Buch: Java ist auch eine Insel

Java ist auch eine Insel
7., aktualisierte Auflage
geb., mit DVD (November 2007)
1.492 S., 49,90 Euro
Galileo Computing
ISBN 978-3-8362-1146-8
Pfeil 14 Die eXtensible Markup Language (XML)
Pfeil 14.1 Auszeichnungssprachen
Pfeil 14.1.1 Die Standard Generalized Markup Language (SGML)
Pfeil 14.1.2 Extensible Markup Language (XML)
Pfeil 14.2 Eigenschaften von XML-Dokumenten
Pfeil 14.2.1 Elemente und Attribute
Pfeil 14.2.2 Beschreibungssprache für den Aufbau von XML-Dokumenten
Pfeil 14.2.3 Schema – eine Alternative zu DTD
Pfeil 14.2.4 Namensraum (Namespace)
Pfeil 14.2.5 XML-Applikationen
Pfeil 14.3 Die Java-APIs für XML
Pfeil 14.3.1 Das Document Object Model (DOM)
Pfeil 14.3.2 Simple API for XML Parsing (SAX)
Pfeil 14.3.3 Pull-API StAX
Pfeil 14.3.4 Java Document Object Model (JDOM)
Pfeil 14.3.5 JAXP als Java-Schnittstelle zu XML
Pfeil 14.3.6 DOM-Bäume einlesen mit JAXP
Pfeil 14.4 Serielle Verarbeitung mit StAX
Pfeil 14.4.1 Unterschiede der Verarbeitungsmodelle
Pfeil 14.4.2 XML-Dateien mit dem Cursor-Verfahren lesen
Pfeil 14.4.3 XML-Dateien mit dem Iterator-Verfahren verarbeiten
Pfeil 14.4.4 Mit Filtern arbeiten
Pfeil 14.4.5 XML-Dokumente schreiben
Pfeil 14.5 Serielle Verarbeitung von XML mit SAX
Pfeil 14.5.1 Schnittstellen von SAX
Pfeil 14.5.2 SAX-Parser erzeugen
Pfeil 14.5.3 Die wichtigsten Methoden der Schnittstelle ContentHandler
Pfeil 14.5.4 ErrorHandler und EntityResolver
Pfeil 14.6 XML-Dateien mit JDOM verarbeiten
Pfeil 14.6.1 JDOM beziehen
Pfeil 14.6.2 Paketübersicht
Pfeil 14.6.3 Die Document-Klasse
Pfeil 14.6.4 Eingaben aus der Datei lesen
Pfeil 14.6.5 Das Dokument im XML-Format ausgeben
Pfeil 14.6.6 Der Dokumenttyp
Pfeil 14.6.7 Elemente
Pfeil 14.6.8 Zugriff auf Elementinhalte
Pfeil 14.6.9 Liste mit Unterelementen erzeugen
Pfeil 14.6.10 Neue Elemente einfügen und ändern
Pfeil 14.6.11 Attributinhalte lesen und ändern
Pfeil 14.6.12 XPath
Pfeil 14.7 Transformationen mit XSLT
Pfeil 14.7.1 Templates und XPath als Kernelemente von XSLT
Pfeil 14.7.2 Umwandlung von XML-Dateien mit JDOM und JAXP
Pfeil 14.8 Java Architecture for XML Binding (JAXB)
Pfeil 14.8.1 Beans für JAXB aufbauen
Pfeil 14.8.2 JAXBContext und die Marshaller/ Unmarshaller
Pfeil 14.9 HTML-Dokumente einlesen
Pfeil 14.10 Zum Weiterlesen


Galileo Computing - Zum Seitenanfang

14.9 HTML-Dokumente einlesen topZur vorigen Überschrift

Liegt ein HTML-Dokument als DOM-Baum vor, hätte das den Vorteil, dass sich das HTML-Dokument einfach untersuchen – etwa mit XPath – oder leicht konvertieren ließe. Das Problem dabei ist nur, dass HTML-Dokumente oft nicht XML-konform sind, also Fehler enthalten. Beim Einlesen würde der strenge XML-Parser Fehler melden und abbrechen.

JTidy

Für HTML-Dokumente, die nicht ganz XML-rein sind, gibt es mit JTidy (http://jtidy.sourceforge.net/) eine freie Bibliothek, die HTML-Dokumente einliest, Fehler (soweit möglich) korrigiert und das XML-Dokument als ordentlichen DOM-Baum repräsentiert. Die Benutzung ist einfach:

Tidy tidy = new Tidy(); 
// tidy.setMakeClean( true );   // Ohne Störungen 
// tidy.setXmlTags( true );     // Eingabe als XML behandeln 
org.w3c.dom.Document node = tidy.parseDOM( in, null );

in steht für einen InputStream, der die Daten bereitstellt. Neben parseDOM(), das ein org.w3c.dom.Document liefert, gibt es auch parse(), was das Wurzelelement als org.w3c. tidy.Node liefert. Der zweite Parameter von parseDOM() – in unserem Beispiel mit null belegt – steht für ein Ausgabe-Objekt. Wird auf dem Tidy-Objekt die Methode parseXXX(in, out) aufgerufen, so schreibt JTidy einen korrekten XML-Strom in das gegebene OutputStream-Objekt. Unter http://jtidy.sourceforge.net/apidocs/index.html ist die API-Dokumentation verfügbar. Die Lizenz von JTidy ist zwar keine übliche, wie GPL oder Apache, aber trotzdem lässt sich die Bibliothek frei verwenden.

CyberNeko

In einigen Fällen zickt auch JTidy und bricht mit vielen Meldungen ab. Für diesen Fall bietet sich eine Alternative an: der HTML-Parser CyberNeko (http://people.apache.org/~andyc/neko/doc/html/index.html).

InputStream in = new FileInputStream( path ); 
org.cyberneko.html.parsers.DOMParser parser = 
                                 new org.cyberneko.html.parsers.DOMParser(); 
parser.parse( new InputSource(in) );

Um das XML-Dokument als JDOM-Document weiterzuverarbeiten, nutzen wir einen DOMBuilder:

DOMBuilder builder = new DOMBuilder(); 
org.jdom.Document document = builder.build( parser.getDocument() );

HtmlCleaner

Der HtmlCleaner http://htmlcleaner.sourceforge.net/ ist eine Bibliothek unter der BSD-Lizenz, die mit Zeilen wie den folgenden eine Eingabe in einen String, Ausgabestrom oder DOM-Baum übertragen:

HtmlCleaner cleaner = new HtmlCleaner( input ); 
String s = cleaner.getCompactXmlAsString(); 
cleaner.writeXmlToStream( outputStream ); 
org.w3c.dom.Document dom1 = cleaner.createDOM(); 
org.jdom.Document dom2 = cleaner.createJDom();

Der HtmlCleaner kommt ebenfalls mit einem Kommandozeilenprogramm und Ant-Task daher.



Ihr Kommentar

Wie hat Ihnen das <openbook> gefallen? Wir freuen uns immer über Ihre freundlichen und kritischen Rückmeldungen.






<< zurück



Copyright © Galileo Press 2008
Für Ihren privaten Gebrauch dürfen Sie die Online-Version natürlich ausdrucken. Ansonsten unterliegt das <openbook> denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.


[Galileo Computing]

Galileo Press, Rheinwerkallee 4, 53227 Bonn, Tel.: 0228.42150.0, Fax 0228.42150.77, info@galileo-press.de