Unicode dominiert das Web

Fast die Hälfte aller von Google indizierten Webseiten werden inzwischen in der Unicode-Kodierung UTF-8 ausgeliefert.

vorlesen Druckansicht 217 Kommentare lesen
Lesezeit: 1 Min.
Von
  • Christian Kirsch

Sprach- und schriftspezifische Kodierungen von Webseiten haben in den vergangenen zwei Jahren gegenĂĽber dem universell verwendbaren Unicode-Format UTF-8 rapide abgenommen. So liegt der Anteil reiner ASCII- und Latin-1-Seiten inzwischen bei jeweils unter 20 Prozent. Diese Werte gelten zumindest fĂĽr die von Google indizierten Web-Seiten.

Sprachspezifische Codierungen sind im Web auf dem Abschwung.

(Bild: google.com)

Unicode erlaubt die Verwendung mehrere Zeichensätze in einem Dokument, was mit den herkömmlichen ISO-Kodierungen ebenso wenig möglich ist wie mit denen für asiatische Sprachen. Der Standard enthält neben den üblichen Schriftzeichen auch Codes für Ligaturen, mathematische Sonderzeichen und nur noch akademisch interessante Symbole wie Hieroglyphen. Das im Web eingesetzte UTF-8-Format (RFC) verwendet zwischen 1 und 6 Bytes pro Zeichen; die 1-Byte-Zeichen entsprechen der ASCII-Kodierung. (ck)