IETF diskutiert Maßnahmen gegen den Ansturm der KI-Crawler

KI-Unternehmen schicken massenhaft neue Crawler los. Wie diese geregelt werden können, beschäftigt auch die IETF.

vorlesen Druckansicht 17 Kommentare lesen
Blackout,Concept.,Emergency,Failure,Red,Light,In,Data,Center,With

(Bild: vchal/Shutterstock.com)

Lesezeit: 6 Min.
Von
  • Monika Ermert
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Der Ansturm von Crawlern auf Seiten im Web veranlasst mittlerweile selbst die Internet Engineering Task Force (IETF), ihre Infrastruktur zu verändern. Innerhalb eines Jahres sprangen die ChatGPT-Anfragen beim IETF Datatracker – der zentralen Anlaufstelle für die Standardisierungsarbeit – um 4000 Prozent. Mehrere IETF-Gruppen arbeiten zugleich fieberhaft an Standards, wie das Netz den Ansturm der Crawler in den Griff bekommen kann.

"Die Zunahme des Crawling-Verkehrs hat uns als relativ kleiner Anbieter gezwungen zu reagieren", sagt Robert Sparks, Senior Director of Information Technology der IETF LLC, des operativen Arms der IETF bei einem Treffen in Madrid. Bis vor einem Jahr hatte die Standardisierungsorganisation ihre Inhalte, samt Data Tracker – das ist die zentralen Plattform für die Standardisierung – von einem einzigen Server ausgespielt. Jetzt hat man mit einem CDN nachgerüstet.

"Dramatisch" nennt Sparks die Entwicklung. Von den 3,5 Milliarden Anfragen, die pro Monat bei der IETF auflaufen, werden 3,23 Milliarden sofort verworfen. Es handele sich um Verkehr von zwei unbelehrbaren Bots. Der Anteil an Bot Traffic im verbliebenen Datenverkehr beträgt danach noch immer rund 10 Prozent und die KI-Crawler sind die Spitzenreiter. ChatGPT greift am meisten auf den Data Tracker zu, gefolgt von GoogleBot, BrightBot und AliyunSecBot.

Bestätigt wurden die Zahlen in einer speziell dem Bot-Traffic gewidmeten Sitzung der Measurment and Analysis for Protocols Research Group der IEFT von mehreren Studien. Cloudflare notierte eine Zunahme von GPTBot-Verkehr um mehr als 300 Prozent. Die Wikimedia Stiftung sieht seit Januar 2024 eine Zunahme des Bedarfs an Bandbreite durch Bots um 50 Prozent.

Zugleich bringen die Crawler immer weniger Leser, weil sie selbst die Inhalte ausgeben. Bevor immer mehr Webseiten den Zugang stark beschränken oder komplett blocken – wie kürzlich auch von Cloudflares "Content Independance Day" in Aussicht gestellt – sollen technische Standards wieder eine bessere Balance herstellen.

Auf der Zielgeraden ist bereits die Arbeitsgruppe AIPref, die mittels eines Updates für Robot.txt Inhalteanbietern die Erklärung ihrer Präferenzen bezüglich der KI-Crawler erlauben soll. Robots.txt war ursprünglich geschaffen worden, damit Seiten mit einfachen Labels versehen werden könnten, ob sie Crawling auf ihren Seiten tolerieren oder nicht. AIPref ergänzt Robots.txt um die Kategorie von KI-Crawlern aller Art. Außerdem können die Präferenzen auch in einem Feld des HTML Headers präsentiert werden.

Bis Ende August soll der neue Anti-Crawlerstandard, um den ursprünglich große Medienhäuser bei einem Workshop in Washington gebeten hatten, fertig werden.

Allerdings wurde beim Treffen in Madrid noch diskutiert, ob die jetzt vorgeschlagene Differenzierung zwischen KI-Crawlertypen klar genug ist. Nutzer sollen nämlich entscheiden können, ob sie Unterscheidungen treffen wollen, etwa die Nutzung der Inhalte für das KI-Training untersagen, die Crawler der Echtzeitsuche der KI-Modelle aber zulassen. Man habe mit einer einfachen Lösung starten wollen, erklärte Martin Thomson von Mozilla, der einer der Autoren ist. Zugleich habe man aber bereits erkannt, dass Abgrenzungen schwierig seien. Beispielsweise seien die Grenzen zwischen den Crawlern mit verschiedenen Absichten nicht scharf.

Damit die neue Robots.txt Version am Ende aber auch Anwendung findet, schielen die Entwickler schon jetzt auf den EU-Gesetzgeber. Im Code of Practice, einem Begleitstück zur europäischen KI-Verordnung, ist mit RFC 9309 das Robots Exclusion Protocol bereits aufgenommen. Allerdings handelt es sich dabei um Handlungsempfehlungen, wie man den AI Act einhalten kann. Wer unterzeichnet, versichert sich an die darin festgehaltenen Standards zu halten. Wer nicht unterzeichnet, muss andere Wege finden, die Einhaltung sicherzustellen.

Eine in Madrid erstmals zusammengetretene Gruppe will das Problem nun noch von einer anderen Seite angehen. Zusätzlich zu den Erklärungen der Inhalteanbieter bezüglich ihrer Präferenzen sollen Bots aller Art sich kryptographisch identifizieren.

Das würde Inhalteanbietern eine bessere Kontrolle des Crawlerverkehrs erlauben, warb ein Vertreter der BBC. Im nächsten Schritt sei es dann auch möglich, mit den Crawlern über Lizenzen zu verhandeln, erklärte Chris Needham, Standardisierungsexperte bei der BBC. Die Identifizierung über User Agent kann gespooft werden, die über IP-Adressen ist aufwändig und ungenau.

Videos by heise

Vertreter von Google und OpenAI versicherten in Madrid, dass sie zu den "guten Bots" gehören wollen und eine entsprechende Standardisierung unterstützen. Eugenio Panero von OpenAI sagte: "Weil ein Standard fehlt, ist die Identifizierung hart und trashy", auch gegenüber Partnern, mit denen man Vereinbarungen habe. IP-Adressen änderten sich, was laufende Updates erfordere. Nicht-standardisierte Header könnten gespooft werden.

HTTP Message Signing, das man bislang nutze, sei unzureichend. OpenAI hoffe, dass ein Webbotauth Standard es erleichtere, dass diejenigen, die Anfragen von ChatGPT Agent erlauben wollen, dies einfach tun können. Zwischen dem ChatGPT Agent, der Nutzeranfragen stellt, und dem ChatGPT Bot unterscheide man.

Bedenken, dass bessere Bot-Techniken Hürden für neue Bots schaffen und Konzentrationseffekte auf Seiten von Bots und Inhalteanbietern haben könnten, konnten die Entwickler nicht ausschließen. Eine gute Lösung müsse auf jeden Fall Zentralisierung bedenken und vermeiden, anerkannte Mark Nottingham von Cloudflare.

WebBotAuth soll so schnell wie möglich als neue Arbeitsgruppe starten.

Ebenfalls zu Wort meldete sich Bings Produkt Manager Krishna Madhavan. Beim MAPRR Treffen stellte er das für Bing genutzte IndexNow Protokoll vor, mit dem Crawleranfragen zur Aktualisierung ersetzt werden durch Pushmeldungen der Inhalteanbieter, wenn sie neue Inhalte oder Versionen ihrer Seiten propagieren wollen. Das Update Signal erlaube eine bessere Balance zwischen Effektivität und "Frische" der Information.

Madhavan sagte auf Nachfrage von heise online, man sei interessiert, die Technologie zur IETF zu bringen, um einen Standard zu schaffen. Ob Microsoft bereit ist, die bislang proprietäre API einem Standardisierungsprozess zu übergeben, muss man abwarten.

(emw)