OpenStreetMap sorgt sich: Tausende KI-Bots erfassen Daten
Bots sollen im großen Stil die Daten von OpenStreetMap abgreifen. Das kostet Geld und gefährdet das Projekt.
(Bild: Wolfilser/Shutterstock.com)
Gibt es bald Navigations-Apps großer KI-Firmen? Das zumindest würde zum Vorgehen einschlägiger Unternehmen passen, die neben dem Kernprodukt des Chatbots auch Browser, soziale Netzwerke und Shoppingfunktionen sowie Textverarbeitungsprogramme aufziehen wollen. Doch woher die Daten? Diese Sorge treibt derzeit OpenStreetMap (OSM) um.
Laut den Projektbetreibern greifen Bots nämlich gerade die offenen Daten im großen Stil ab. Diese automatisierten Besuche kosten Geld – etwa wegen steigender Hostingkosten. Das kann dem Aufbau eigener Dienste dienen. Möglich ist aber auch, dass die Bots Informationen von OpenStreetMap holen, die für Anfragen an Chatbots genutzt werden.
Offene Daten, offene Probleme
Bei OpenStreetMap handelt es sich um ein kollaboratives Projekt zur Erstellung freier, editierbarer Karten. Das ist vergleichbar mit den Inhalten der Wikipedia. Auch die werden gemeinsam gesammelt und können von jedermann eingesehen werden. Die Kartendaten nutzen zum Beispiel Navigationsdienste. Neben den Straßen umfassen die Daten auch Informationen zu Sehenswürdigkeiten und der Verkehrsinfrastruktur.
Videos by heise
Bei LinkedIn schreiben die Verantwortlichen in einem Hilferuf, die Bots könnten das gesamte Projekt in Gefahr bringen. Und sie warnen, dass dies auch andere Projekte gefährde. Dort wird der verantwortliche Entwickler, Grant Slater, zitiert, der sagt, er habe in den vergangenen Jahren eine oder wenige IPs gesehen, die mehr als 10.000 Anfragen gestellt hätten. Nun seien es in einer Woche 100.000 IPs, die koordiniert Scraping betreiben – wobei jede IP einige Anfragen stellen würde. Das mache es auch unmöglich, die Bots beziehungsweise IPs zu blockieren.
Ursprung der Crawler schwer zu erfassen
Auf Rückfrage von heise online berichtet Slater, dass der Ursprung der Crawler schwer zu fassen ist, da viele Bots mittlerweile Residential-Proxys verwenden, um sich als regulärer Traffic auszugeben. Allein in den letzten 24 Stunden hat OSM über 320.000 IPv4-Adressen und 100.000 IPv6-Adressen geblockt. Außerdem hat das Projekt zusätzliche Maßnahmen ergriffen und limitiert Zugriffsraten und sperrt Trafficmuster, die auf Scraper hinweisen. Zusätzlich steht OSM im Kontakt mit Residential-Proxy-Anbietern, um das Scrapen über deren Dienste zu verhindern.
Neben den Kosten für OSM wirkt das Scrapen ähnlich wie ein DDoS-Angriff und verschlechtert die Servicequalität für reguläre Nutzer. Dabei wäre das Sammeln der Daten über die Webseite gar nicht nötig: Alle Daten finden sich unter einer offenen Lizenz auf planet.openstreetmap.org und stehen dort zum Download zur Verfügung.
Dass die KI-Bots zunehmend zum Problem werden, haben auch Anbieter wie Cloudflare oder Akamai bereits erkannt. Die bieten etwa Dienste an, die Bots erkennen und bekämpfen sollen – bevor sie die Server erreichen. Auch Wikimedia und verschiedene Linuxprojekte haben mit ähnlichen Problemen zu kämpfen.
Abschnitt mit Antworten von Grant Slater von OpenStreetMap ergänzt.
(emw)