"Besorgniserregender Trend": KI verursacht immer mehr Traffic
Die Hälfte des Verkehrs von Web-Crawlern generiert Meta – mehr als Google und OpenAI zusammen. ChatGPT dominiert dagegen den Echtzeit-Traffic im Web.
Notfall im Rechenzentrum
(Bild: vchal/Shutterstock.com)
Chatbots und die dahinterstehenden KI-Modelle verändern nicht nur die Informationssuche, sondern auch das Internet allgemein. Das stellt Web-Dienstleister und Inhalteanbieter vor einige Herausforderungen. Ein Bericht der Cloud-Plattform Fastly zeigt, wie sich der automatisierte Datenverkehr durch KI-Bots entwickelt. Fastly ist dabei selbst bestrebt, Lösungen für die Regelung von Crawlern für eigene Kunden bereitzustellen.
KI-Bots sind in zwei Hauptgruppen unterteilt: KI-Crawler durchsuchen das Internet systematisch, um Daten fĂĽr das Training von KI-Modellen zu sammeln. Fetcher-Bots wie Agenten von ChatGPT rufen Inhalte in Echtzeit im Web ab, um die Anfragen von Nutzern zu beantworten.
Das intensive Content-Scraping der Crawler kann zur Überlastung von Servern führen. Zwischen April und Juli 2025 waren laut der Analyse von Fastly 80 Prozent des gesamten beobachteten KI-Bot-Verkehrs auf solche Crawler zurückzuführen. Meta, der Mutterkonzern von Facebook, Instagram und WhatsApp, ist mit 52 Prozent aller KI-Crawler-Anfragen der größte Verursacher. Dieses Volumen ist deutlich mehr als das von Google (23 Prozent) und OpenAI (20 Prozent) zusammen generierte.
Fetcher-Bots wie Agenten von ChatGPT rufen Inhalte in Echtzeit ab, um die Anfragen von Nutzern zu beantworten. Das führt zu einer großen Zahl von Anfragen. In einem Fall stellte ein solcher Abruf-Bot laut der Untersuchung während der Spitzenlast 39.000 Anfragen pro Minute an eine einzelne Webseite. Diese hohe Belastung kann selbst ohne böse Absicht zu Problemen wie massivem Bandbreitenverbrauch führen, die ähnlich wie bei einem DDoS-Angriff die Ursprungsserver in die Knie zwingen.
"Besorgniserregender Trend"
"Ein besorgniserregender Trend ist der sprunghafte Anstieg des Datenverkehrs durch groß angelegte KI-Bots", schreiben die Autoren, die mehr als 6,5 Billionen monatliche Anfragen ausgewertet haben. In einem Fall habe ein einzelner KI-Crawler einen Spitzenwert von rund 1000 Ersuchen pro Minute erreicht. Das könne eine erhebliche Belastung für Websites darstellen, die auf Datenbankabfragen angewiesen sind oder Schnittstellen zum Durchsuchen von Git-Repositories wie Gitea bereitstellen. Bei solchen Systemen könnten selbst kurze Aktivitätsspitzen ohne wirksame Bot-Kontrollen oder Skalierungsmaßnahmen zu Verlangsamungen, Timeouts oder Störungen führen.
Als weitere Herausforderung machen die Autoren fehlende Transparenz aus. Es gibt keine einheitliche Verifizierung für Bots. Das macht es für Sicherheitsfachleute schwer, legitime Bots von potenziell schädlichem Datenverkehr zu unterscheiden. Um die Bot-Verifizierung zu erleichtern, sollten Betreiber ihre IP-Adressbereiche veröffentlichen oder Verifizierungsmethoden wie Reverse-DNS-Lookups unterstützen.
Videos by heise
Geografische Verzerrung
Fast 90 Prozent des ausgewerteten KI-Crawler-Verkehrs stammen aus Nordamerika. Sind KI-Modelle vorwiegend mit Inhalten aus den USA trainiert, entspricht dem auch der Output. Es kommt zu Verzerrungen.
Während sich die großen KI-Unternehmen in den USA auf das sogenannte Prinzip des Fair Use berufen, nach dem sie auch urheberrechtlich geschützte Werke nutzen dürfen, sofern es allen Menschen zugutekommt, bildet in Deutschland das Urheberrecht derzeit mit dem Absatz zum Text- und Data-Mining die Rechtsgrundlage. Dieses erlaubt die Verwendung urheberrechtlich geschützter Werke zu Forschungszwecken.
Wer die Nutzung der eigenen Inhalte durch Crawler verhindern möchte, kann das mittels der Datei robots.txt machen. Diese ist jedoch nur eine Aufforderung und kann Crawler nicht technisch verhindern. Es gibt bereits Bestrebungen, neue Standards zu entwickeln. Fraglich ist dabei auch die Unterscheidung der Bots. Google etwa gibt Webseitenbetreibern nur die Möglichkeit, sowohl Crawler für das KI-Training als auch die Echtzeit-Suche auszuschließen oder beide zuzulassen.
Ohne klare Standards zur Überprüfung der Bots werde es für Unternehmen fast unmöglich, den Datenverkehr zu kontrollieren und ihre Infrastruktur zu schützen, warnt Arun Kumar, ein Sicherheitsforscher bei Fastly. Automatisierter Traffic müsse mit derselben Präzision und Dringlichkeit gemeistert werden wie jede andere Infrastruktur- oder Sicherheitsbedrohung.
(emw)