Die UTF-8-Kodierung ist ein Verfahren, mit dem eine Folge von 16 Bit breiten Unicode-Zeichen in 8 Bit breite Zeichen effizient transformiert wird.
So kodierte Zeichenketten können ohne Probleme in Dateien gespeichert werden, auch wenn das Betriebssystem keine Unicode-Unterstützung bietet.
Die Unicode-Zeichen werden hierbei in Abhängigkeit von ihrem Wert mit 1,
2 oder 3 Bytes verschlüsselt:
- Die Zeichen des ASCII-Zeichensatzes (\u0001-\007F) werden mit 1 Byte kodiert.
- Die Zeichen von \u0080 bis \u07FF werden mit
2 Bytes kodiert.
- Die Zeichen von \u0800 bis \FFFF werden mit
3 Bytes kodiert.
Unter anderem stellen die Klassen DataOutputStream und DataInputStream Methoden zum Abspeichern und Lesen von UTF-8-kodierten Zeichenketten
bereit.
Copyright © 2002 dpunkt.Verlag, Heidelberg. Alle Rechte vorbehalten.