robots.txt – 30 Jahre Hausregeln für Websites

Der Robots Exclusion Standard regelt, wer automatisiert Website-Inhalte abgrasen darf – und ist in Zeiten von ChatGPT so aktuell wie lange nicht mehr.

In Pocket speichern vorlesen Druckansicht 39 Kommentare lesen

erstellt mit Midjourney von jo

Lesezeit: 7 Min.
Von
Inhaltsverzeichnis

"Important: Spiders, Robots and Web Wanderers": Heute vor genau dreißig Jahren machte der niederländische Entwickler Martijn Koster einen Vorschlag in der Mailingliste www-talk. Dort wurden damals technische Themen diskutiert, die das Web betreffen. Das World Wide Web Consortium gab es noch nicht, es wurde erst am 1. Oktober 1994 gegründet.

Koster schrieb, weil "Robots existieren und nie verschwinden werden, habe ich eine Seite eingerichtet, auf der so viel Informationen wie möglich über aktive Roboter gesammelt werden soll. [...] Sie enthält Verhaltensregeln für Roboterautoren, eine Liste aller bekannten Roboter und, was am wichtigsten ist, einen vorgeschlagenen Standard, der den Betreibern von WWW-Servern erlaubt, anzugeben, ob sie Robots auf ihren Server zugreifen lassen wollen, und wenn ja, auf welche Teile."

Koster hatte Aliweb entwickelt, eine der ersten Web-Suchmaschinen. Aliweb bestand aus einem Robot, einem sogenannten Crawler. Der durchforstete das Web und nahm neue Webseiten in einem Index auf, wo sie verschlagwortet wurden.

In der Frühzeit des Web waren solche Crawler ein Faktor, der Netzlast und Kosten hochtrieb. Internetzugänge waren langsam und teuer – sowohl für Surfer als auch für Website-Betreiber. Viele Websites wurden in dieser WWW-Urzeit auf dem PC oder aus dem heimischen LAN gehostet. Übereifrige Robots konnten da schnell die Rechnung in die Höhe treiben.

Kosters Vorschlag war der Versuch, das Roboter-Wesen in geordnete Bahnen zu lenken: Ein Standard, mit dem Website-Betreiber Robots (die seinerzeit auch unter anderen Bezeichnungen wie Spiders und Web Wanderers firmierten) signalisieren können, welche Teile der Site sie besuchen dürfen.

Der Vorschlag konnte sich als "Robots Exclusion Standard" durchsetzen und wird seither breit genutzt – als Quasistandard, ohne jemals von einer offiziellen Stelle beschlossen worden zu sein – eine Art Gentleman’s Agreement zwischen den Webmastern und Suchmaschinen-Betreibern sowie anderen Betreibern von Robots.

Die weit verbreitete Nutzung des Standards liegt auch daran, dass er simpel gehalten ist und sich einfach umsetzen lässt: Webmaster legen eine Datei namens robots.txt in das Hauptverzeichnis ihres Webservers, die Robots wie eine Website abrufen. Die Datei hält in einem maschinenlesbaren Format die Regeln für die Robots fest.

Die Datei robots.txt von heise online: KI-Bots müssen draußen bleiben, für andere Bots sind einzelne Verzeichnisse tabu.

Die simplen Regeln lassen sich aber auch von Menschen gut lesen, wie sich an der Datei robots.txt von heise online zeigen lässt. Jede Anweisung der Datei besteht aus zwei Elementen. Zunächst benennt sie den oder die Robot(s). Dafür nutzt sie den sogenannten User-agent – den Namen, den sich der Robot selbst gibt. Darauf folgen eine oder mehrere Zeilen, die dem Robot den Zutritt zu bestimmten Bereichen der Site verbieten.

User-agent: GPTBot

Disallow: /

Diese Regel zum Beispiel sperrt das Hauptverzeichnis des Webservers einschließlich aller Unterverzeichnisse für den GPTBot, sprich: Der Bot von OpenAI hat hier ein vollständiges Hausverbot. Die Regeln für andere Bots – für den User-agent kommt hier der Platzhalter * zum Einsatz – sind differenzierter: Sie sollen nur bestimmte Verzeichnisse nicht besuchen. Es gibt noch ein paar weitere Regeln, Details finden sich in der Wikipedia.

So praktisch und weit verbreitet der "Robots Exclusion Standard" auch sein mag: Er dokumentiert nur den Wunsch des Webmasters, kann aber weder technisch noch rechtlich verhindern, wenn sich der Betreiber eines Robots nicht daran halten will und seinen Bot die betreffenden Inhalte abrufen lässt. Die Betreiber des Internet Archive zum Beispiel haben klar gemacht, dass sie selbst entscheiden, welche Seiten sie archivieren und sich mit ihren Robots daher nicht immer an die Vorgaben von robots.txt halten werden.

Bei einem Bot, der die Hausregeln missachtet, spricht man von einem Bad Bot. An vielen Stellen im Netz, an denen Waren oder Dienstleistungen angeboten werden, sind viel aktivere Bad Bots als die des Internet Archive im Einsatz: Sie crawlen regelmäßig Preis- und andere Produktinformationen, zum Beispiel im Auftrag der Konkurrenz. In solchen Fällen können diese Bots einen Großteil des Traffics ausmachen – wenn sich der Webmaster nicht wehrt und technische Maßnahmen ergreift, um die Bots zu erkennen und auszusperren.

Viele Medienunternehmen sehen sich derzeit die Bots von KI-Unternehmen wie OpenAI an. Diese erzeugen zwar nicht so viel Traffic wie die Preiscrawler: Die KI-Anbieter müssen die Inhalte aus den Websites ja nur einmal abrufen, um ihre Modelle damit füttern zu können.

Dennoch brechen die KI-Bots den ungeschriebenen Deal, den die Website-Betreiber mit vielen der erwünschten Bot-Betreiber geschlossen haben. Denn viele Bots stellen ja keine Einbahnstraße dar, über die Daten einseitig zum Beispiel zu Suchmaschinen fließen. Die Websites erhalten eine Gegenleitung: Den Traffic, die Besucher, die Suchmaschinen zu ihnen leiten.

KI-Bots dagegen saugen einseitig Daten ab, um sie für das Training ihrer Datenmodelle zu nutzen. Eine Gegenleistung in Form von Traffic gibt es in vielen Fällen nicht. Im Gegenteil beantworten zum Beispiel Sprachmodelle viele Fragen auf Basis ihres zusammengeklaubten Wissens. Der Besuch der Website, von der die Information ursprünglich stammt, entfällt.

Jeder Website-Betreiber, der seine Inhalte davor schützen will, dass KI-Unternehmen sie ausschlachten, ist gut beraten, den einschlägigen Bots via robots.txt Hausverbot zu erteilen. OpenAI hält sich ebenso daran wie Google für seine KI-Crawler. Ein weiterer wichtiger Robot ist der CCBot, der die Datenbanken der Organisation Common Crawl füttert, die in viele KI-Modelle einfließen. Auch Common Crawl hält sich an die robots.txt. Es gibt aber noch weitere KI-Bots. Netfuture hat eine Liste.

Nach Einschätzung von Heise-Justitiar Joerg Heidrich genügt ein Eintrag in der Datei robots.txt aber nicht, um rechtssicher zu dokumentieren, dass man sich die Nutzung seiner Inhalte vorbehält (§ 44b (3) UrhG). Der Hinweis muss nach der Gesetzesbegründung eindeutig ausgesprochen werden. Er rät dazu, den Vorbehalt zusätzlich im Impressum zu dokumentieren, wie wir das hier auch machen.

Ein Großteil der Websites lässt die KI-Bots auf ihre Inhalte zugreifen, so eine Statistik von originality.ai.

Doch auch wenn der Webmaster rechtssicher dokumentiert, dass er nicht möchte, dass KI-Unternehmen seine Inhalte nutzen: Wie will er Missbrauch eigentlich beweisen? Nur in den seltensten Fällen wird er aus KI-Modellen fast 1:1 eigene Inhalte reproduzieren können. Und was hilft eine aktualisierte robots.txt, die Robots zukünftig aussperrt, wenn in der Vergangenheit schon massenhaft Inhalte in KI-Modelle eingeflossen sind?

Urheber und Medienkonzerne wie die New York Times sehen jedenfalls ihre Rechte verletzt und ziehen gegen OpenAI und Co. vor den Kadi. Oder sie arrangieren sich mit OpenAI & Co. – und verkaufen ihre Inhalte wie der Springer-Verlag, die Nachrichtenagentur AP und zuletzt auch Reddit.

In Zeiten von Geschäftsmodellen, die auf das ungefragte Ausschlachten von Datenmassen setzen, erscheint robots.txt auf eine positive Art nicht mehr zeitgemäß. Der "Robots Exclusion Standard" strahlt immer noch den Geist des frühen Webs aus – der auf Austausch, Kooperation setzt. Happy Birthday, robots.txt.

(jo)