Die MAMA von Opera analysiert das Web

Unter dem Namen MAMA betreibt Opera eine Suchmaschine, die Webseiten auf die eingesetzten Techniken hin analysiert. Nun brachte der Browserhersteller eine erste Analyse mit interessanten Ergebnissen heraus.

In Pocket speichern vorlesen Druckansicht 87 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Holger Bleich

Webentwickler- und Designer dürften sich brennend für ein Projekt der norwegischen Browserschmiede Opera interessieren, zu dem das Unternehmen nun Details mitgeteilt hat. Unter dem Namen "Metadata Analysis and Mining Application" (MAMA) betreibt es seit einiger Zeit einen Webcrawler, der nicht die Inhalte von Sites erfasst, sondern deren strukturellen Aufbau analysiert und auf die eingesetzten Techniken herunterbricht.

MAMA ist beispielsweise in der Lage zu erkennen, welche Versionen von HTML, XHTML, CSS oder Skriptsprachen eingesetzt werden, ob Flash zur Anwendung kommt oder ob der Code W3C-standardkonform ist. Außerdem liest MAMA Metainformationen aus, etwa – falls vorhanden – das Tag zum eingesetzten Editor. Laut Opera kann man auf Basis der Indexdaten ermitteln, welche Techniken derzeit besonders populär sind oder an welchen Stellen Schwächen bei der Code-Generierung liegen.

Um dies eindrucksvoll zu unterstreichen, veröffentlichte der Browser-Hersteller gleichzeitig einen Report, in dem er die bisher gesammelten Informationen von MAMA auswertet. Untersucht wurden 3.509.180 URLs in 3.011.668 Domains. Wie es zu dieser URL-Auswahl kam, beschreibt Opera ausführlich. Lediglich 4,1 Prozent der Webseiten liefen ohne Fehlermeldungen gegen den W3C-Validator. Opera untersuchte, wie konform der Code war, den die verschiedenen Content-Management-Systeme dynamisch generierten. Demzufolge lag Typo3 mit 12,7 Prozent an der Spitze, gefolgt von WordPress (9 Prozent) und Joomla (6,5 Prozent).

"Schlechte Nachrichten" (O-Ton Opera) lieferte MAMA bezüglich der Code-Generierung von gängigen Webeditoren: Nur Apples iWeb konnte mit 81,9 Prozent W3C-konformem Code überzeugen. Adobes Dreamweavers HTML validierte gerade mal bei 3,4 Prozent der Seiten korrekt, ähnliche Ergebnisse gab es bei NetObjects Fusion und Adobe GoLive. Ganz schlimm schnitten Microsoft-Produkte ab: Nur 0,6 Prozent aller mit Frontpage oder Word erzeugten HTML-Seiten enthielten keine Fehler gemäß W3C-Standards. Laut Operas MAMA sind deutsche Webentwickler übrigens weltweit die größten Flash-Muffel: Nur auf jeder vierten deutschen Webseite (25 Prozent) fand die Suchmaschine Flash-Applets. In den USA waren es immerhin 32,6 Prozent, in China gar 67 Prozent.

Nach Angaben von Opera entsprang die Idee zu MAMA aus der Abteilung für Qualitätssicherung. Um Opera "in der Wildnis" zu testen, habe man mühselig in Web nach Seiten gesucht, die diese oder jene Technik richtig oder falsch einsetzen. So wuchs im Jahre 2004 der Entschluss heran, für diese Suche eine eigene Anwendung zu entwickeln. Noch in diesem Jahr möchte der Hersteller das Tool auf Einladungsbasis Webentwicklern zur Verfügung stellen. (hob)