Weitere aktuelle Java-Titel finden Sie bei dpunkt.

2.1.1 Die UTF-8-Kodierung

Die UTF-8-Kodierung ist ein Verfahren, mit dem eine Folge von 16 Bit breiten Unicode-Zeichen in 8 Bit breite Zeichen effizient transformiert wird. So kodierte Zeichenketten können ohne Probleme in Dateien gespeichert werden, auch wenn das Betriebssystem keine Unicode-Unterstützung bietet. Die Unicode-Zeichen werden hierbei in Abhängigkeit von ihrem Wert mit 1, 2 oder 3 Bytes verschlüsselt:

Die Zeichen des ASCII-Zeichensatzes (\u0001-\007F) werden mit 1 Byte kodiert.
Die Zeichen von \u0080 bis \u07FF werden mit 2 Bytes kodiert.
Die Zeichen von \u0800 bis \FFFF werden mit 3 Bytes kodiert.
Unter anderem stellen die Klassen DataOutputStream und DataInputStream Methoden zum Abspeichern und Lesen von UTF-8-kodierten Zeichenketten bereit.