Textkodierung von ASCII bis Unicode verstehen

Textkonsole, Mail-Client oder Webbrowser zerstören teils Umlaute oder verschlucken Zeilenumbrüche. Schuld ist der Wildwuchs an konkurrierenden Textkodierungen.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 47 Kommentare lesen
Textkodierung von ASCII bis Unicode
Lesezeit: 16 Min.
Von
  • Hajo Schulz
Inhaltsverzeichnis

Eigentlich sollte man meinen, das einfachste Dateiformat der Welt sind Textdateien: Sie enthalten ja nichts anderes als Schriftzeichen und im kompliziertesten Fall noch ein paar Steuerzeichen, die Absätze und Seitenumbrüche kennzeichnen. Trotzdem hat wohl jeder schon erlebt, dass Textdateien sich beim Anzeigen auf die eine oder andere Art seltsam verhalten: Da sind Umlaute verunstaltet, Zeilenumbrüche fehlen oder jeder zweite Buchstabe ist ein unlesbares Sonderzeichen. Beschädigt scheinen die betroffenen .txt-Dateien aber nicht zu sein, denn es findet sich praktisch immer irgendein anderes Programm, das ihnen doch noch korrekten Text entlockt.

Wie alle Dateien bestehen Textdokumente zunächst einmal aus eigentlich bedeutungslosen Bitmustern. Sie zu dekodieren und damit zu interpretieren ist Sache der Anwendung, die die Datei liest. Bei der Kodierung von Texten hat sich als kleinster gemeinsamer Nenner der "American Standard Code for Information Interchange", kurz ASCII, praktisch überall durchgesetzt. Er ordnet den 128 Kombinationen, die die unteren sieben Bit eines Byte annehmen können, je ein Zeichen zu.

Interpretiert man dieselben Bitmuster als Zahlen zwischen 0 und 127 (oder zwischen 0x00 und 0x7f in hexadezimaler Darstellung), erhält man die klassische ASCII-Tabelle: In ihr steht beispielsweise 32 (0x20) für ein Leerzeichen, 48 (0x30) für die Ziffer 0 und 65 (0x41) für ein A. Bei den ersten 32 Einträgen (0 bis 31) handelt es sich um nichtdruckbare Steuerzeichen. Die meisten von ihnen haben heutzutage ihre Bedeutung verloren.