Webcrawler-Standardisierung: Google legt seinen Parser für robots.txt offen

Die Open-Source-Legung des Parsers ist Teil von Googles Bemühungen, das Robots Exclusion Protocol offiziell zu standardisieren.

In Pocket speichern vorlesen Druckansicht 46 Kommentare lesen
Webcrawler: Google öffnet seinen Parser für robots.txt
Lesezeit: 3 Min.

Wenn es nach Googles Plänen geht, soll das Robots Exclusion Protocol (REP) ein offizieller Internetstandard bei der IETF (Internet Engineering Task Force) werden. Neben der auf dem Webmaster Central Blog angekündigten Einreichung der REP-Vorschläge bei der Organisation hat der Internetriese seine eigene Software zum Parsen von "robots.txt" quelloffen zur Verfügung gestellt.

Die grundsätzliche Idee, Informationen beziehungsweise Regeln für Webcrawler in einer separaten Datei auf dem Webserver abzulegen, stammt von dem niederländischen Softwareentwickler Martijn Koster. Er hatte zuvor Aliweb entwickelt, die als erste echte Search-Engine im Web gilt. Das Robots Exclusion Protocol, das auch als Robots Exclusion Standard oder schlicht nach dem Dateinamen als robots.txt bezeichnet wird, entstand vor 25 Jahren.

Eine unabhängige Gruppierung hat das Protokoll seit 1994 zum De-facto-Standard entwickelt. Auch wenn sich inzwischen Microsoft, Google und Yahoo über gemeinsame Regeln darüber geeinigt haben, ist das Protokoll bisher kein offizieller Standard. Ebendieses soll sich nach Googles Wünschen nun ändern, wie das Unternehmen in einem Beitrag auf seinem Webmaster Central Blog ankündigt.

Für die Standardisierung hat der Internetriese gemeinsam mit Webmastern, anderen Search-Engine-Anbietern und Koster eine einheitliche Dokumentation für die zeitgemäße Verwendung des REP erstellt und bei der IETF eingereicht. Im ersten Schritt sind nun alle Entwickler und Webmaster eingeladen, im RFC (Request for Comments) ihre Kommentare einzureichen. Beim Schreiben dieser Meldung war auf der IETF-Site noch keine Information zum REP zu finden.

Der Vorschlag erweitert laut dem Blogbeitrag die ursprünglichen Regeln um einige Erkenntnisse und Ergebnisse von Entwicklungen seit der ursprünglichen Veröffentlichung von REP im Jahr 1994. Unter anderem soll es nicht mehr nur auf Zugriffe über HTTP, sondern unter anderem auch via FTP oder CoAP zugeschnitten sein. Außerdem sollen Entwickler mindestens die ersten 512 KByte parsen, was indirekt eine Maximalgröße festlegt, um Verbindungen nicht zu lange offen halten zu müssen. Darüber hinaus gibt es Vorschläge zur Standardisierung von Fristen für das Cachen und Verhaltensregeln für Webcrawler, wenn eine zuvor verfügbare "robots.txt"-Datei nicht mehr erreichbar ist.

Im Zuge der Bemühungen um die Standardisierung des REP hat Google seinen eigenen Parser für "robots.txt" als Open-Source-Software veröffentlicht. Die C++-Library ist laut dem Open-Source-Blog des Suchmaschinenanbieters seit 20 Jahren im Einsatz. Auch wenn Teile des Codes aus den neunziger Jahren des vorigen Jahrhunderts stammen, entwickelt Google die Library ständig weiter. Über die Jahre haben die Entwickler laut ihren Angaben viel darüber gelernt, wie Webmaster Regeln in robots.txt festlegen, und mussten dabei zahlreiche Ausnahmefälle berücksichtigen.

Der auf GitHub veröffentlichte robots.txt-Parser enthält neben der eigentlichen Library auch ein Testwerkzeug, mit dem Webmaster ihre Regeln prüfen können. Der Parser ist unter Apache-2-Lizenz verfügbar, jedoch entspricht die Open-Source-Variante nicht vollständig dem Produktivcode beim Internetriesen. Laut dem Readme auf GitHub betreffen die Änderungen vor allem interne Header und ähnliche Symbole. (rme)