Unicode dominiert das Web
Fast die Hälfte aller von Google indizierten Webseiten werden inzwischen in der Unicode-Kodierung UTF-8 ausgeliefert.
- Christian Kirsch
Sprach- und schriftspezifische Kodierungen von Webseiten haben in den vergangenen zwei Jahren gegenĂĽber dem universell verwendbaren Unicode-Format UTF-8 rapide abgenommen. So liegt der Anteil reiner ASCII- und Latin-1-Seiten inzwischen bei jeweils unter 20 Prozent. Diese Werte gelten zumindest fĂĽr die von Google indizierten Web-Seiten.
(Bild:Â google.com)
Unicode erlaubt die Verwendung mehrere Zeichensätze in einem Dokument, was mit den herkömmlichen ISO-Kodierungen ebenso wenig möglich ist wie mit denen für asiatische Sprachen. Der Standard enthält neben den üblichen Schriftzeichen auch Codes für Ligaturen, mathematische Sonderzeichen und nur noch akademisch interessante Symbole wie Hieroglyphen. Das im Web eingesetzte UTF-8-Format (RFC) verwendet zwischen 1 und 6 Bytes pro Zeichen; die 1-Byte-Zeichen entsprechen der ASCII-Kodierung. (ck)