Textkodierung von ASCII bis Unicode verstehen

Textkonsole, Mail-Client oder Webbrowser zerstören teils Umlaute oder verschlucken Zeilenumbrüche. Schuld ist der Wildwuchs an konkurrierenden Textkodierungen.

Artikel verschenken

47

19.11.2019, 18:47 Uhr

Lesezeit: 16 Min.

c't Magazin

Von

Hajo Schulz

Textkodierung von ASCII bis Unicode verstehen
- Noch ein Bit
Ein X für ein U
Code-Kodierung

Artikel in c't 20/2017 lesen

Eigentlich sollte man meinen, das einfachste Dateiformat der Welt sind Textdateien: Sie enthalten ja nichts anderes als Schriftzeichen und im kompliziertesten Fall noch ein paar Steuerzeichen, die Absätze und Seitenumbrüche kennzeichnen. Trotzdem hat wohl jeder schon erlebt, dass Textdateien sich beim Anzeigen auf die eine oder andere Art seltsam verhalten: Da sind Umlaute verunstaltet, Zeilenumbrüche fehlen oder jeder zweite Buchstabe ist ein unlesbares Sonderzeichen. Beschädigt scheinen die betroffenen .txt-Dateien aber nicht zu sein, denn es findet sich praktisch immer irgendein anderes Programm, das ihnen doch noch korrekten Text entlockt.

Wie alle Dateien bestehen Textdokumente zunächst einmal aus eigentlich bedeutungslosen Bitmustern. Sie zu dekodieren und damit zu interpretieren ist Sache der Anwendung, die die Datei liest. Bei der Kodierung von Texten hat sich als kleinster gemeinsamer Nenner der "American Standard Code for Information Interchange", kurz ASCII, praktisch überall durchgesetzt. Er ordnet den 128 Kombinationen, die die unteren sieben Bit eines Byte annehmen können, je ein Zeichen zu.

Interpretiert man dieselben Bitmuster als Zahlen zwischen 0 und 127 (oder zwischen 0x00 und 0x7f in hexadezimaler Darstellung), erhält man die klassische ASCII-Tabelle: In ihr steht beispielsweise 32 (0x20) für ein Leerzeichen, 48 (0x30) für die Ziffer 0 und 65 (0x41) für ein A. Bei den ersten 32 Einträgen (0 bis 31) handelt es sich um nichtdruckbare Steuerzeichen. Die meisten von ihnen haben heutzutage ihre Bedeutung verloren.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Plattenspieler-Kaufberatung: Worauf Sie achten sollten

Musik auf Vinyl liegt weiter im Trend und die Auswahl an Plattenspielern steigt. Darauf sollten Sie achten, wenn Sie ins Vinyl-Hobby einsteigen möchten.

Fast wie gedruckt: Drei E-Ink-Bilderrahmen im Vergleich

Dank neuer Technik sind E-Ink-Bildschirme bunter als je zuvor. Wir haben Pocketbook Inkposter Affresco, Reflection Frame und Switchbot AI Art Frame getestet.

Smart Home: Home Assistant mit nützlichen Apps erweitern

Apps in Home Assistant erweitern das System und machen es flexibler. Wir zeigen, was mit ihnen möglich ist.

, Copyxspace, stock.adobe.com / heise medien

USB-C: Warum Sie eigentlich immer das falsche Kabel anschließen

Das richtige Kabel für USB-C-Verbindungen zu finden, ist ein Glücksspiel: Das eine lädt zu langsam, beim anderen kriechen die Daten im Schneckentempo. Was tun?

Erwin Schrödinger mit Schrödingers Katze und der Schrödingergleichung

100 Jahre Schrödingergleichung: Warum die Katze noch immer nicht tot ist

Zum Jubiläum der Grundgleichung der Quantenphysik zeigt sich, dass ein frustrierendes Gedankenexperiment aktueller ist als je zuvor.

Comic-Zeichnung von einem Pinguin, der wie an einer Tafel steht, da ist aber ein Terminal was den Inhalt einer Systemd-Unit-Datei anzeigt.

Linux: Systemd-Services verstehen und so eigene Dienste steuern

Auf modernen Linux-Systemen läuft ohne Systemd-Services nichts. Wir zeigen, wie Sie eigene Unit-Dateien erstellen und Systemd-Services optimal für sich nutzen.