Galileo Computing :: Java ist auch eine Insel – 4.8 Zeichenkodierungen und Base64

4.8 Zeichenkodierungen und Base64

Einzelne Zeichen sind in Java intern immer in 16 Bit Unicode kodiert, und ein String ist eine Folge der Unicode-Zeichen. Wollen wir diese Unicode-Zeichenkette in eine Datei schreiben, können mitunter andere Programme die Dateien nicht wieder einlesen, da sie kein Unicode erwarten oder damit umgehen können. Die Unicode-Strings müssen daher in unterschiedliche Codepages, etwa 8 Bit Latin-1, umkodiert werden.

4.8.1 Über die Klasse String Kodierungen vornehmen

Die String-Klasse konvertiert mit der Methode getBytes(String charsetName) bzw. getBytes(Charset charset) den String in ein Byte-Feld mit einer bestimmten Zeichen-Kodierung. Auf diese Weise kann Java die interne Unicode-Repräsentation zum Beispiel in den EBCDIC-Zeichensatz eines IBM-Mainframes übertragen. Sun repräsentiert jede Kodierung (engl. encodings) durch eine Zeichenfolge oder ein Charset-Objekt; die Namen sind unter http://tutego.com/go/encoding aufgeführt. Für den EBCDIC-Zeichensatz ist das die Codepage »Cp037«. Die DOS-Konsole unter Windows nutzt einen veränderten IBM-Zeichensatz, dessen Codepage »Cp850« heißt.

Beispiel Kodiere den String »Vernaschen« in EBCDIC:

try 
{ 
  byte[] ebcdic = "Vernaschen".getBytes( "Cp037" ); 
  System.out.println( Arrays.toString(ebcdic) ); 
  // [-27, –123, –103, –107, –127, –94, –125, –120, –123, –107] 
} 
catch ( UnsupportedEncodingException e ) { ... }

Zur Kodierung in die andere Richtung, also von einem Bytefeld in einen Unicode-String, ist der Konstruktor von String mit der Kodierung zu nutzen. Auch hier kann eine UnsupportedEncodingException folgen, wenn es die Kodierung nicht gibt.

Beispiel Kodiere das Bytefeld mit den Zeichen nach dem EBCDIC-Alphabet zurück in einen String:

byte[] ebcdic = "Vernaschen".getBytes( "Cp037" ); 
String s = new String( ebcdic, "Cp037" ); 
System.out.println( s );                  // Vernaschen

4.8.2 Konvertieren mit OutputStreamWriter-Klassen

Neben der Klasse String mit getBytes() unterstützen auch andere Klassen die Umkodierung. Dazu zählt die Klasse OutputStreamWriter, die als Writer die Unicode-Zeichen mit einer gewählten Kodierung in einen binären Datenstrom schreibt. Der InputStreamReader übernimmt den anderen Weg zum Lesen von Byte-Folgen und Konvertieren in Unicode.

Beispiel Zum korrekten Darstellen der Umlaute auf der DOS-Konsole wird ein Output-StreamWriter mit der Codepage 850 (DOS-Latin-1) verwendet:

Listing 4.13 GetBytesConverter.java, main()

try 
{ 
  System.out.println( "Ich kann Ä Ü Ö und ß" ); 
  PrintWriter out = new PrintWriter( 
    new OutputStreamWriter(System.out, "Cp850") ); 
  out.println( "Ich kann Ä Ü Ö und ß" ); 
  out.flush(); 
} 
catch ( UnsupportedEncodingException e ) { 
  System.err.println(e); } 
}

Die Standard-Kodierung von Windows, Cp1252 (Windows-1252, beziehungsweise Windows Latin 1), ist eine Anpassung von ISO 8859-1, die in den Bereich 0x80 bis 0x9f andere Zeichen setzt.

Sollen ganze Dateien umkodiert werden, lässt sich auf der Kommandozeile das Dienstprogramm native2ascii nutzen.

4.8.3 Das Paket java.nio.charset

Seit Java 1.4 übernimmt das Paket java.nio.charset im Hintergrund die Kodierungen. Die statische Funktion Charset.availableCharsets() liefert eine Map<String,Charset> – mit etwa 150 Einträgen – und somit Namen und assoziierte Klassen aller angemeldeten Kodierer. Die konkreten Kodierungsklassen erfragen auch Charset.forName().

for ( String charsetName : Charset.availableCharsets().keySet() ) 
{ 
  System.out.println( charsetName ); 
 
  Charset charset = Charset.forName( charsetName ); 
  System.out.println( charset );      // Ausgabe wie oben 
}

Mit dem konkreten Charset-Objekt lässt sich auf zwei Wegen weiter verfahren:

Direkt mit den Methoden encode() und decode() konvertieren oder

über die Methode newDecoder() einen CharsetDecoder beziehungsweise über newEncoder() einen CharsetEncoder erfragen und damit arbeiten.

4.8.4 Base64-Kodierung

Für die Übertragung von Binärdaten hat sich im Internet die Base64-Kodierung durchgesetzt, die zum Beispiel bei E-Mail-Anhängen und SOAP-Nachrichten zu finden ist. Die im RFC 1521 beschriebene Methode übersetzt drei Bytes (24 Bit) in vier Base64-kodierte Zeichen (4 Zeichen mit jeweils 6 repräsentativen Bits). Die Base64-Zeichen bestehen aus den Buchstaben des lateinischen Alphabets, den Ziffern 0 bis 9 sowie »+«, »/« und »=«. Die Konsequenz dieser Umformung ist, dass Binärdaten rund 33 % größer werden.

Sun liefert zwar in der Java-Bibliothek Unterstützung für diese Umsetzung, aber nicht ganz legal: Die Kodierer liegen im nicht-öffentlichen Paket sun.misc. Wem das nicht ganz geheuer ist, der kann unter http://jakarta.apache.org/commons/codec/ die Commons-Bibliothek beziehen.

Das folgende Beispiel erzeugt zuerst ein Bytefeld der Größe 112 und belegt es mit Zufallszahlen. Sun-Klassen kodieren das Bytefeld in einen String, der auf dem Bildschirm ausgegeben wird. Nachdem der String wieder zurückkodiert wird, werden die Bytefelder verglichen und liefern natürlich true.

Listing 4.14 Base64Demo.java

import java.io.IOException; 
import java.util.*; 
import sun.misc.*; 
 
public class Base64Demo 
{ 
  public static void main( String[] args ) throws IOException 
  { 
    byte[] bytes1 = new byte[ 112 ]; 
    new Random().nextBytes( bytes1 ); 
 
    // buf in String 
    String s = new BASE64Encoder().encode( bytes1 ); 
    System.out.println( s ); 
 
    // Zum Beispiel: 
    // QFgwDyiQ28/4GsF75fqLMj/bAIWNwOuBmE/SCl3H2XQFpSsSz0jtyR0LU+kLiwWsnSUZljJr97Hy 
    // LA3YUbf96Ym2zx9F9Y1N7P5lsOCb/vr2crTQ/gXs757qaJF9E3szMN+E0CSSslDrrzcNBrlcQg== 
    // String in byte[] 
    byte[] bytes2 = new BASE64Decoder().decodeBuffer( s ); 
    System.out.println( Arrays.equals(bytes1, bytes2) );    // true 
  } 
}

Ihr Kommentar

Wie hat Ihnen das <openbook> gefallen? Wir freuen uns immer über Ihre freundlichen und kritischen Rückmeldungen.