Täglich grüßt der Bot
Für viele Unternehmen ist es fast schon von existenzieller Bedeutung, in Suchmaschinenergebnissen mit der eigenen Website präsent zu sein. Google hat mit den Sitemaps ein Werkzeug zur Verfügung gestellt, das Website-Betreibern und Suchmaschinen helfen soll.
- Maik Ludewig
In Googles Suchindex aufzutauchen ist für Website-Betreiber wichtig. Insbesondere für Websites, die vom Traffic der Klicks in Suchergebnissen „leben“, ist Google ein unverzichtbarer Zulieferer. Umso mehr Bedeutung hat eine möglichst vollständige und zeitnahe Aufnahme der eigenen Webseiten in den Suchindex. Der klassische Weg dazu führt über die Anmeldung der Webadresse: Googles Add-URL-Funktion. Ob und wann die Seiten im Index erscheinen, bleibt jedoch ungewiss. Chancen auf eine schnellere Indizierung sowie ein besseres Ranking haben Angebote, auf die viele andere thematisch relevante Websites per Hyperlink verweisen. Dies erweist sich jedoch insbesondere für neue Angebote als keine niedrige Hürde, denn zunächst müssen Webmaster eine kritische Masse an Besuchern generieren. Hat Google eine Webseite indiziert, taucht ein weiterer Stolperstein auf: Nach der Aktualisierung der Seite muss sich der Webmaster beim Warten auf den neuerlichen Besuch des Googlebots oftmals in Geduld üben. Insbesondere bei dynamischen Websites kann die Suchmaschine zudem häufig nicht sofort alle Seiten indizieren, sodass dem Google-Nutzer unter Umständen wichtige Inhalte verborgen bleiben.
Sitemaps, bitte kommen
An dieser Stelle setzt Googles Software Sitemaps an. Um den bislang weitgehend autonomen Crawlern die Arbeit zu erleichtern und den Prozess des Spidering zu steuern, füttern Webmaster den Googlebot nun mit Informationen in Form einer Sitemaps-Datei. Sie beinhaltet eine Liste aller URLs, die der Crawler beim nächsten Besuch aufrufen und indizieren soll. Zusätzlich enthält eine Sitemap Informationen zum Aktualisierungsintervall sowie zum internen Ranking der Seiten. Der Googlebot sucht somit nicht mehr nur auf Basis seiner eigenen Algorithmen oder vorhandener Inbound-Links, sondern wird zusätzlich gezielt aktiviert und gelenkt. Effizientere Crawls, aktuellere Suchergebnisse und ein weiterer Ausbau des Suchindex sind die selbstgesteckten Ziele des kalifornischen Anbieters.
Onlineressourcen
Es gibt noch einen weiteren Grund, Sitemaps zu nutzen: Das Online-Tool bietet aufschlussreiche Informationen und Statistiken darüber, wie Google die eigenen Webseiten sieht. Diese Informationen können Webmaster wiederum zur Optimierung der Website nutzen.
Sitemaps sollen dem Webmaster helfen, auf diesen Prozess Einfluss zu nehmen. Ihre Verwendung garantiert dabei weder die Aufnahme in den Index, noch ändert sich hierdurch das Ranking der Seiten in den Suchergebnissen. Dennoch hat das Werkzeug einige Vorzüge, die die Nutzung des Dienstes nicht nur für Suchmaschinen-Experten reizvoll erscheinen lassen.
Gestartet im Juni 2005, befinden sich die Sitemaps noch immer in der Betaphase. Im August dieses Jahres hat Google sein Portal für Webmaster restrukturiert und dort einige relevante Dienste unter einer Oberfläche zugänglich gemacht. Neben Anwendungen wie dem Site Status Wizard oder der Add-URL-Funktion sind dort nun die Sitemaps zu finden. Im Rahmen der Neustrukturierung hat Google sie in die Webmaster-Tools aufgenommen. Der Name Sitemaps findet jedoch weiterhin Verwendung. Die offizielle Umbenennung in Webmaster-Tools geht einher mit der Ergänzung von Sitemaps um diverse Diagnose- und Statistikfunktionen, die Googles Entwickler in den letzten Monaten kontinuierlich ausgebaut haben.
Sitemaps automatisch erstellen
Zum Entwurf einer Sitemap gibt Google Webmastern mehrere Möglichkeiten an die Hand. Prinzipiell kann man die Datei manuell mit einem Texteditor verfassen: für jede Seite der Website einen Eintrag. Dies ist insbesondere für große Sites keine effiziente Methode, zumal man die Datei bei jeder Aktualisierung der Website anpassen muss. Daher existieren verschiedene Mechanismen zur automatisierten Erstellung.
Der gängigste Weg ist die Nutzung eines Python-Skripts (Sitemaps Generator), das Google bereitstellt. Auf dem eigenen Webserver hinterlegt, generiert es bei einer Änderung der Seiten automatisch eine neue Sitemaps-Datei, vorausgesetzt, der Server unterstützt die Python-Version 2.2. Ähnlich funktionieren die zahlreichen Sitemaps-Plug-ins, die mittlerweile für dutzende Content-Management-Systeme und Blogs erhältlich sind.
Wer kein passendes Plug-in findet oder den Sitemap-Generator nicht einsetzen kann, den bedienen Dritthersteller mit diversen Online-Generatoren. Verschiedene Websites bieten kostenlose Werkzeuge, die die eigene Website scannen und eine valide Sitemaps-Datei generieren, die anschließend noch auf dem Webserver „landen“ muss.
Um die Sitemaps-Datei zu aktivieren, muss man Google deren Existenz mitteilten. Hierfür gibt es eine URL im Verwaltungsmenü von Sitemaps. Vorab muss sich der Website-Betreiber jedoch noch als rechtmäßiger Eigentümer verifizieren. Dies geschieht entweder über den Upload einer speziellen (von Google benannten) HTML-Datei oder die Integration eines Meta-Tags in den Head-Bereich aller Webseiten.
Elemente mit Zusatzinformationen
Neben der Angabe einer URL können die einzelnen Webseiten verschiedene Zusatzinformationen enthalten. Diese umfassen neben dem Datum der letzten Änderung und der Modifikationshäufigkeit eine Gewichtung der Seite innerhalb der Website. Ein Beispiel für eine Sitemap mit diesen Parametern zeigt Listing 1.
Listing 1: Sitemap
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.babiel.com/de/index.html</loc>
<lastmod>2006-10-05</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
</urlset>
Innerhalb des url-Elements ist loc (location) der einzige erforderliche Parameter. Hier erfolgt die Angabe der URL der Seite, vorzugsweise mit beginnendem Protokoll und - bei Verzeichnissen - abschließendem Schrägstrich. Solche URLs erfasst Google bis zu einer Länge von 2048 Zeichen.
lastmod gibt das Änderungsdatum der Datei im W3C-Datetime-Format wieder, das unter anderem die Angabe von Zeitzonen zulässt. In einfacher Form kann das Datum dem Schema JJJJ-MM-TT entsprechen.
changefreq teilt der Suchmaschine mit, in welchem Turnus die Webseite aktualisiert wird. Die möglichen Werte reichen von „always“ und „hourly“ bis zu „yearly“ und „never“. Ersteres bietet sich für volldynamische Seiten an, die bei jedem Zugriff geänderte Inhalte zeigen.
Wichtig ist: Google selbst wertet diesen Parameter als „Hinweis“ für den Crawler, nicht jedoch als Befehl, zu exakt diesem Zeitpunkt eine Neuindizierung vorzunehmen. Die Wahrscheinlichkeit, dass der Googlebot die Angabe bei der eigenen Crawling-Planung berücksichtigt und eine Indizierung vornimmt, ist von Site zu Site unterschiedlich.
Eine Besonderheit stellt das priority-Element dar. Mit seiner Hilfe lassen sich die URLs einer Site im Vergleich zueinander auf eine Skala von 0.0 bis 1.0 bewerten. Hochpriorisierte Seiten durchsucht Google danach früher und nimmt sie gegebenenfalls eher in den Index auf als Seiten mit niedriger Priorität. Dieses Element ist daher insbesondere für Webangebote mit einer großen Anzahl von Dokumenten interessant. „1.0“ bildet den höchsten Wert, die Standardeinstufung liegt bei „0.5“. Auf die Position in den SERPs (Search Engine Result Pages) hat die Angabe von Prioritäten jedoch keinen Einfluss.
Eine Stärke von Sitemaps beziehungsweise Webmaster Tools ist die Integration mittlerweile zahlreicher Diagnose- und Statistikfunktionen, die Google kontinuierlich ausbaut. Zwar lassen sich viele Informationen auch durch Tools anderer Anbieter erfassen, jedoch bietet die Integration unter einer einheitlichen Oberfläche einen komfortablen Zugriff und gibt dem Webmaster wertvolle Hinweise zur Optimierung der eigenen Webseiten.
Diagnose- und Statistikfunktionen
In einem Reiter „Diagnose“ zeigt die Zusammenfassung, ob die Website schon in den Google-Index aufgenommen ist und wann der letzte Zugriff durch den Googlebot erfolgte. In der Unterrubrik „Web-Crawl“ führt Sitemaps alle Seiten auf, auf die der Bot nicht zugreifen konnte, etwa aufgrund von 404-Fehlern, Zeitüberschreitungen oder Einschränkungen durch die Datei robots.txt.
Letztere beinhaltet Anweisungen für Suchmaschinen-Robots, die diese von der Indizierung bestimmter Bereiche abhalten sollen. Sitemaps bietet dem Anwender ein Analysetool, das diese Datei auf Syntaxfehler untersucht. Google analysiert die Datei automatisch im Stammverzeichnis der Website. Wer auf seiner Website noch keine robots.txt eingebunden hat, kann hier zusätzlich in einem Formular den Robots-Code eingeben oder auf eine gesonderte URL verweisen, um die Prüfung vorzunehmen. Neben der Analyse durch den normalen Googlebot stehen hier noch weitere Varianten, die sogenannten User-Agents, zur Auswahl, beispielsweise für den Bilderindex oder AdSense-Zielseiten.
Besonders sinnvoll ist das Werkzeug „Bevorzugte Domain“, denn die meisten Websites sind sowohl über www.domain.tld als auch ohne www. erreichbar. Hier kann der Webmaster definieren, welche der beiden Google in den Suchergebnissen anzeigen soll. Das verhindert eine getrennte Behandlung der beiden Domainvarianten, die gegebenenfalls unerwünschte Resultate im Ranking nach sich ziehen kann.
Die Anfragestatistik gibt Aufschluss über die Suchbegriffe, die Google-Nutzer eingegeben haben, und in deren Ergebnisseiten die eigene Website auftauchte. Zusätzlich gibt Sitemaps Auskunft darüber, über welche Suchanfragen die Nutzer am häufigsten auf die eigene Website gelangt sind. Anhand dieser Daten kann man die Nachfrage der Nutzer analysieren und das eigene Angebot anpassen.
Innerhalb der „Crawling-Statistik“ kann sich der Webmaster über den Anteil der Seiten mit niedrigem oder hohen Pagerank informieren. Zusätzlich wird für die letzten drei Monate die URL mit dem jeweils höchsten Page-Rank angezeigt. Google filtert im Bereich „Seitenanalyse“ die am häufigsten verwendeten Begriffe innerhalb der Site und listet sie absteigend nach Häufigkeit auf. Somit kann der Webmaster abgleichen, ob die definierten Schlüsselwörter der Website sich angemessen in den Inhalten widerspiegeln (Keyword-Dichte). Aufschlussreich ist auch die Auflistung der Keywords in Links von externen Webseiten auf das eigene Angebot. Alle Daten lassen sich zusätzlich als .csv-Datei herunterladen (siehe Abbildung 2).
Fazit
Im November 2006 hat Google ein wichtiges Ziel erreicht: Das Sitemaps-Protokoll wurde auf die Version 0.9 aktualisiert und von Yahoo sowie MSN adaptiert. Webmaster können nun ein einheitliches Protokoll nutzen, um ihre Inhalte den drei Großen im Suchmaschinenmarkt zugänglich zu machen. Trotz der geänderten Spezifikation bleiben die Sitemaps der Version 0.84 zunächst weiterhin gültig.
Selbst wenn die Verwendung der Google Sitemaps keine Garantie auf eine Indizierung bietet und keinen direkten Einfluss auf das Ranking in den Suchergebnissen hat, liefert es doch nützliche Informationen darüber, wie der Googlebot die eigene Website sieht. Hieraus lassen sich Schlüsse für eine Optimierung der Website ziehen, um die Auffindbarkeit durch die Nutzer von Suchmaschinen zu verbessern. Die zahlreichen Analyse- und Statistikfunktion bieten wertvolle Hilfestellung und einen klaren Mehrwert. Wünschenswert wäre eine engere Kopplung mit Google Analytics, dem Werkzeug zur Benutzeranalyse und Adwords-Kampagnenoptimierung.
Ob das selbsternannte „Experiment“ im Betastatus gelungen ist, muss jeder Webmaster für sich selbst entscheiden, indem er die Resultate für seine Website bewertet. Auf jeden Fall ist das Werkzeug ein Schritt in die richtige Richtung mit Potenzial für weitere Optimierungsfunktionen und Automatismen.
Maik Ludewig M. A.
ist Projektmanager mit den Schwerpunkten Informationsmanagement und Online-Marketing bei der Babiel GmbH.
(hb)