17.2 URI und URL 

Die URL (Uniform Resource Locator) ist das Adressenformat für eine Ressource im Web. Eine URL ist formal in RFC 1738 beschrieben und stellt so etwas wie einen Dateinamen für das Dateisystem dar. Eine Adresse wie http://www.tutego.com/seminare/ zeigt eine übliche URL für Webadressen. Die Angaben beginnen mit einem Schema (auch Protokoll genannt), es folgen Doppelpunkt und weitere Angaben wie der Servername und ein Pfad auf das Verzeichnis. Das Protokoll bestimmt die Zugriffsart, und das meistverwendete Protokoll ist HTTP (Hypertext Transfer Protocol), mit dem auf Inhalte des Webs zugegriffen wird.
17.2.1 URI 

Eine URL hat immer ein Protokoll und ist die Spezialisierung einer URI (Uniform Resource Identifier). In Java wird ein URI-Objekt durch die Klasse java.net.URI beschrieben. Eine wichtige Aufgabe der Klasse ist die Normalisierung, also das Auflösen von relativen Angaben mit »..«.
17.2.2 Die Klasse URL 

Um ein URL-Objekt zu erzeugen, ist es am einfachsten, über eine String-Repräsentation der URL-Adresse zu gehen:
URL url = new URL( "http://www.tutego.com/index.html" );
Die URL-Klasse hat zusätzliche Konstruktoren; diese sind nützlich, wenn Komponenten der Adresse, also Zugriffsart (beispielsweise das HTTP), Host-Name und Dateireferenz, getrennt angegeben sind. Eine Alternative zur oben genannten Form ist:
URL url = new URL( "http", "www.tutego.com", "index.html" );
Das zweite Argument in diesem Konstruktor ist die Basisadresse der URL, und das dritte Argument ist der Name der Ressource relativ zur Basisadresse. Ist diese Basisadresse null, was möglich ist, dann ist die zweite Angabe absolut zu nehmen. Und ist das zweite Argument in absoluter Notation formuliert, wird alles im ersten String ignoriert.
Da eine URL auch einen entfernten Rechner an einem anderen Port ansprechen kann, existiert dafür ebenfalls ein Konstruktor:
URL url = new URL( "http", "www.tutego.com", 80, "index.html" );
Die URL des Objekts wurde durch eine absolute Adresse erzeugt. Diese enthält dann alle Informationen, die für den Aufbau zum Host nötig sind. Es können jedoch auch URL-Objekte erzeugt werden, wo nur eine relative Angabe bekannt ist. Relative Angaben werden häufig bei HTML-Seiten verwendet, da die Seite so besser vor Verschiebungen geschützt ist. Damit die Erzeugung eines URL-Objekts mit relativer Adressierung gelingt, muss eine Basisadresse bekannt sein. Ein Konstruktor für relative Adressen erwartet diese Basisadresse als Argument.
URL domainUrl = new URL( "http://www.tutego.com/" ); URL indexUrl = new URL( domainUrl, "index.html");
Diese Art und Weise der URL-Objekt-Erzeugung ist besonders praktisch für Referenzen innerhalb von Webseiten (Named Anchors). Besitzt eine Webseite eine Textmarke lang, so kann der URL-Konstruktor für relative URLs so verwendet werden:
URL url = new URL( "http://www.tutego.com" ); URL bottomUrl = new URL( virtuellURL, "faq.html#lang" );
Ausnahmen bei der URL-Erzeugung
Jeder der Konstruktoren löst eine MalformedURLException aus, wenn das Argument im Konstruktor entweder null ist oder er ein unbekanntes Protokoll (wie in telepatic: \\ulli\brain\java) beschreibt. Somit ist der Code in der Regel von einem Block der folgenden Art umgeben:
try { URL myURL = new URL( ... ) } catch ( MalformedURLException e ) { // Fehlerbehandlung }
Es ist wichtig zu erkennen, dass die Ausnahme nicht erzeugt wird, weil der angesprochene Rechner nicht erreicht werden kann. Nur die Schreibweise der URL ist für die Ausnahme ausschlaggebend. Internet-Verbindungen bauen die Konstruktoren nicht auf.
final class java.net.URL
implements Serializable |
- URL( String spec ) throws MalformedURLException Erzeugt ein Objekt aus der URL-Zeichenkette.
- URL( String protocol, String host, int port, String file ) throws MalformedURLException Erzeugt ein URL-Objekt mit dem gegebenen Protokoll, Host-Namen, Port-Nummer und Datei. Ist die Port-Nummer –1, wird der Standardport verwendet; für das WWW ist der Port zum Beispiel 80.
- URL( String protocol, String host, String file ) throws MalformedURLException Das Gleiche wie URL(protocol, host, –1, file).
- URL( URL context, String spec ) throws MalformedURLException Erzeugt relativ zur gegebenen URL ein neues URL-Objekt.
17.2.3 Informationen über eine URL 

Ist das URL-Objekt einmal angelegt, lassen sich Attribute des Objekts erfragen, aber nicht mehr ändern. Es gibt zwar Setter-Methoden, doch sind diese protected und somit den Unterklassen vorbehalten. Uns normalen Klassenbenutzern bietet die URL-Klasse nur Methoden zum Zugriff auf Protokoll, Host-Name, Port-Nummer und Dateiname. Es lassen sich jedoch nicht alle URL-Adressen so detailliert aufschlüsseln; außerdem sind manche Zugriffsmethoden nur für HTTP sinnvoll.
final class java.net.URL
implements Serializable |
- String getProtocol() Liefert das Protokoll der URL.
- String getHost() Liefert den Host-Namen der URL, sofern dies möglich ist. Für das Protokoll »file« ist dies ein leerer String. Im Falle einer IP-Adresse steht die Angabe in [ eckigen Klammern ].
- int getPort() Liefert die Port-Nummer. Ist sie nicht gesetzt, liefert getPort() eine –1.
- String getRef() Gibt den Anker – alles hinter dem # – zurück. Bei »vorne#anker« liefert getRef() den String »anker«.
- String getPath() Gibt nur den Pfad der URL ohne Anker zurück.
- String getFile() Gibt den Dateinamen der URL zusammen mit dem Anker zurück.
- String getQuery() Liefert den Anfragestring, also das, was hinter dem Fragezeichen steht.
Das kleine nachfolgende Programm erzeugt ein URL-Objekt für http://www.tutego.com:80/java/faq/index.html#lang?key=val und gibt die ermittelbaren Attribute aus.
Listing 17.1 com/tutego/insel/net/ParseURL.java, main()
URL url = new URL( "http://www.tutego.com:80/java/faq/index.html?key=val#Lang" ); System.out.println( url.getProtocol() ); // http System.out.println( url.getHost() ); // www.tutego.com System.out.println( url.getPort() ); // 80 System.out.println( url.getFile() ); // /java/faq/index.html?key=val System.out.println( url.getPath() ); // /java/faq/index.html System.out.println( url.getQuery() ); // key=val System.out.println( url.getRef() ); // Lang
Verweisen zwei URLs auf die gleiche Seite?
Die URL-Klasse untersucht mit equals(), ob alle Komponenten der einen URL mit der anderen URL übereinstimmen. Zunächst testet die Methode, ob es sich bei dem zu vergleichenden Objekt um ein Exemplar von URL handelt. Wenn ja, untersucht equals() über sameFile() Protokoll, Host, Port, Datei und dann auch noch, ob die Komponenten Referenzen (Anker) besitzen oder nicht.
final class java.net.URL
implements Serializable |
- boolean sameFile( URL other) Vergleicht zwei URL-Objekte. Die Methode liefert true, wenn beide Objekte auf die gleiche Ressource zeigen. Der Anker der HTML-Dateien ist unwichtig.
- boolean equals( Object o ) Auch equals() vergleicht intern mit sameFile(), doch zusätzlich auch, ob die beiden Anker gleich sind.
|
17.2.4 Der Zugriff auf die Daten über die Klasse URL 

Um auf die auf dem Webserver gespeicherten Dokumente zuzugreifen, gibt es drei Möglichkeiten:
- Jedes URL-Objekt besitzt die Methode openStream(), die einen InputStream zum Weiterverarbeiten liefert, so dass wir dort die Daten auslesen können.
- Die API-Beschreibung erwähnt, dass openStream() eigentlich nur eine Abkürzung für openConnection().getInputStream() ist. openConnection() erzeugt ein URLConnection-Objekt, auf dem getInputStream() den Eingabestrom liefert. Wir können natürlich auch mit openConnection() und dem URLConnection direkt arbeiten.
- Bei der dritten Möglichkeit ist Handarbeit angesagt, weshalb wir sie im Kapitel über Sockets beschreiben. Dazu brauchen wir aber die URL-Klasse nicht mehr.
Mit dem Scanner und dem InputStream eine Datei aus dem Netz laden
Verweist die URL auf eine Textdatei, dann erweitern wir oft den InputStream zu einem BufferedReader, da dieser eine readLine()-Methode besitzt. Die Scanner-Klasse lässt sich ebenfalls optimal einsetzen, da sie zum einen Zeile für Zeile und zum anderen mit dem passenden Delimiter auch die ganze Eingabe lesen kann. Insofern unterscheidet sich das Lesen einer Datei nicht vom Lesen eines entfernten URL-Objekts.
Listing 17.2 com/tutego/insel/net/ReadAllFromUrl.java
package com.tutego.insel.net; import java.io.IOException; import java.io.InputStream; import java.net.URL; import java.util.Scanner; class ReadAllFromUrl { public static void main( String[] args ) { InputStream is = null; try { URL url = new URL( " http://www.tutego.com/aufgaben/bond.txt " ); is = url.openStream(); System.out.println( new Scanner( is ).useDelimiter( "\\Z" ).next() ); } catch ( Exception e ) { e.printStackTrace(); } finally { if ( is != null ) try { is.close(); } catch ( IOException e ) { } } } }
Wir erzeugen ein URL-Objekt und rufen darauf die openStream()-Methode auf. Diese liefert einen InputStream auf den Dateiinhalt. Sind die Daten gelesen, schließt close() den Datenstrom; close() bezieht sich allerdings nicht auf das URL-Objekt, sondern auf den Datenstrom.
Das Beispiel zeigt auch, dass bei openStream() beziehungsweise openConnection() ein try-catch-Block notwendig ist. Denn geht etwas daneben, zum Beispiel, wenn der Dienst nicht verfügbar ist, wird eine IOException ausgelöst:
try { URL url = new URL( "http://www.tutego.com/index.html" ); URLConnection con = url.openConnection(); } catch ( MalformedURLException e ) { // new URL() ging daneben ... } catch ( IOException e ) { // openConnection() schlug fehl ... }
final class java.net.URL
implements Serializable |
- final InputStream openStream() throws IOException Öffnet eine Verbindung zum Server und liefert einen InputStream zurück. Diese Methode ist eine Abkürzung für openConnection().getInputStream().
- URLConnection openConnection() throws IOException Liefert ein URLConnection-Objekt, das die Verbindung zum entfernten Objekt vertritt. openConnection() wird vom Protokoll-Handler immer dann aufgerufen, wenn eine neue Verbindung geöffnet wird.
Im nächsten Unterkapitel wollen wir uns mit dem URLConnection-Objekt beschäftigen, das die Verbindung über das Netzwerk zum Inhalt aufbaut.
17.2.5 Verbindungen durch einen Proxy-Server 

In vielen größeren Unternehmen bekommt ein einzelner Client keinen direkten Zugriff auf das Internet. Vielmehr laufen die Verbindungen über eine Zwischenstelle, die Proxy genannt wird. Dieser Proxy cacht zum Beispiel Webseiten und erhöht damit die Performance. Gleichzeitig ist ein Proxy Teil einer wichtigen unternehmensweiten Sicherheitsstrategie. Seiten können geloggt und ausgefiltert werden – welcher Chef möchte schon, dass seine Mitarbeiter laufend Firmenkugelschreiber auf Ebay verticken?
Java nutzt zur Festlegung der Proxy-Eigenschaften zwei beziehungsweise drei System-Properties, die unter http://tutego.com/go/netproperties genauer beschrieben sind:
- http.proxyHost. Adresse des Rechners, der als Proxy dient
- http.proxyPort. Port des Proxy-Rechners
Um nun in Applikationen einen Proxy einzusetzen, sind die Eigenschaften zu setzen; eine Möglichkeit besteht über die Kommandozeile mit –D, eine andere über System.setProperty():
System.setProperty( "proxySet", "true" ); System.setProperty( "proxyHost", "myProxyHost" ); System.setProperty( "proxyPort", "myProxyPort" );
Für Applets sind diese Eigenschaften automatisch über die Browser-Einstellungen gesetzt.
Wenn der Proxy eine Autorisierung erfordert – das ist häufig dann der Fall, wenn der Client einen Fehler mit 407 (authentication required) bekommt –, muss ihm ein Benutzername und Passwort übermittelt werden. Hier gibt es bedauerlicherweise eine ganze Reihe unterschiedlicher Lösungen, die von den Java-Versionen abhängen. Funktionieren sollte im Allgemeinen:
System.setProperty( "http.proxyUser", "myProxyUser" ); System.setProperty( "http.proxyPassword", "myProxyPasswort" );
Soll ein sicherer Webserver über eine Proxy-Verbindung kontaktiert werden, lassen sich mit installierter Java Secure Socket Extension (JSSE) https.ProxyHost und https.ProxyPort passend setzen. Im Fall von SOCKS [Mit SOCKS lässt sich eine Proxy-Firewall einrichten, die bei vertrauten SOCKS-Servern eine anonyme Bewegung im Internet erlauben. SOCKS-Dienste erfordern Einstellungen an der Software. ] sind die Eigenschaften socksProxyHost für den Server und socksProxyPort für den Port zu setzen. Letzterer steht standardmäßig auf 1080.