Google analysiert Webseiten-Quellcode

Um einer Weiterentwicklung von HTML durch die Arbeitsgruppe WHAT WG Material zu liefern, hat Google den Quellcode von einer Milliarde Webseiten statistisch analysiert.

In Pocket speichern vorlesen Druckansicht 389 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Herbert Braun

Das Projekt Google Code hat den HTML-Quelltext von über einer Milliarde Webseiten aus dem Google-Cache statistisch untersucht. Hintergrund für die Arbeit ist Googles Engagement in der Arbeitsgruppe Web Hypertext Application Technology (WHAT WG), die unabhängig vom W3C an Entwürfen für Version 5 von HTML arbeitet. Aus dem Datenmaterial sollen Erkenntnisse über die Bedürfnisse der Webdesigner gewonnen werden, um sie in die Weiterentwicklung von HTML einfließen zu lassen.

Die Projektgruppe stellte fest, dass die durchschnittliche Webseite 19 verschiedene HTML-Elemente enthält. Die überwiegende Mehrzahl der Webdesigner verwendet nach wie vor HTML für die Gestaltung: Tabellen fürs Layout gehörten ebenso wie das veraltete font-Tag zum Standard. Proprietäre Erweiterungen wie topmargin (IE-typisch) oder marginheight (Netscape; beide im body-Tag) sind um Größenordnungen populärer als Elemente zur semantischen Strukturierung von Inhalten.

Sogar Tippfehler ließen sich statistisch erfassen: So hatten tausende von Webdesignern Probleme, das (ohnehin veraltete) language-Attribut im script-Tag korrekt zu schreiben. Auch die beliebtesten Web-Editoren hinterlassen ihre Marken im Quelltext, indem sie HTML eigenmächtig um Tags, Attribute oder Werte bereichern.

Die Ergebnisse der Studie könnten in den Entwurf von HTML 5 eingehen, indem unpopuläre Attribute und Elemente aus der Spezifikation verschwinden und häufig genutzte proprietäre Erweiterungen oder Stylesheet-Klassennamen standardisiert werden. Das W3C betrachtet dagegen die Weiterentwicklung von HTML seit Version 4.01 als abgeschlossen und arbeitet derzeit an XHTML 2. (heb)