Nepenthes: eine Teergrube für KI-Webcrawler

Webcrawler für KI-Modelle machen auch vor dem Urheberrechtsschutz oft nicht halt – das Tool Nepenthes stellt ihnen eine Falle.

In Pocket speichern vorlesen Druckansicht 38 Kommentare lesen

(Bild: winnond / Shutterstock.com)

Lesezeit: 4 Min.

Im Wettrennen um das beste KI-Modell spielen Webcrawler eine zentrale Rolle: Sie durchforsten das Netz automatisiert nach Inhalten, mit denen die Entwickler ihr Large Language Model trainieren können. Nepenthes ist ein Tool, das die Crawler in ein unendliches Labyrinth locken oder ihren endlosen Datenhunger sogar mit massig sinnlosen Inhalten füttern soll.

Das große Problem mit den Webcrawlern der KI-Entwickler ist, dass sie auch vor urheberrechtlich geschützten Inhalten nicht haltmachen. Eigentlich können Webseitenbetreiber in der robots.txt hinterlegen, wenn sie Webcrawling für LLMs nicht erlauben. Doch die entsprechenden Hinweise sind von KI-Modell zu KI-Modell verschieden, und einige Unternehmen versuchen bereits, solche Sperren gezielt zu umgehen.

Den Programmierer Aaron B. ärgerte es ganz besonders, wie die Dinge beim Webcrawling zu LLM-Zwecken laufen. Weswegen er das Tool Nepenthes entwickelte. Es teilt sich den Namen mit der fleischfressenden Kannenpflanze. Nur, dass das Programm Nepenthes sich keine Insekten, sondern laut B. Webcrawler schnappt.

"Es handelt sich um eine Teergrube, die Webcrawler fangen soll", schreibt B. auf seiner Webseite. Das Ganze sei insbesondere für KI-Webcrawler gedacht. "Allerdings frisst sie so ziemlich alles, was seinen Weg hineinfindet", macht B. klar. Gemeint sind Webcrawler anderer Art, beispielsweise von Suchmaschinen – wer Nepenthes auf der eigenen Seite einbaut, wird dadurch höchstwahrscheinlich aus der Google-Suche fliegen, warnt B.

Nepenthes funktioniert, indem eine Seite mit rund einem Dutzend Links generiert wird, die alle wieder auf sich selbst verlinken. Noch dazu haben die Nepenthes-Seiten extrem lange Ladezeiten, was bei den Crawlern Zeit bindet. Das Konzept lässt sich hier anschaulich ausprobieren (ja, das Laden der Seite im Schneckentempo ist Absicht). Wer über genug Rechenleistung und Bandbreite verfügt, kann noch einen Schritt weitergehen, und die Crawler mit Markov-generiertem Nonsens füttern, der die Festplatten der KI-Server verstopft.

Natürlich hat die Sache aber auch einen Haken: Während sich die Webcrawler – ob von einem KI-Unternehmen oder nicht – an Nepenthes abarbeiten, sorgt das beim Server hinter der Webseite ständig für Auslastungsspitzen. Je leistungsschwächer der Server oder je mehr Crawler gleichzeitig ins Netz gehen, desto stärker ist die Auslastung. Zwar lassen sich die IPs geschnappter Webcrawler blockieren, doch bei der Masse an Webcrawlern, die das Netz durchstreifen, wird Nepenthes wohl kaum das Futter ausgehen. Und wer den Crawlern mit Markov-generiertem Inhalt und sehr viel Ressourceneinsatz regelrecht "das Maul stopfen" will, fängt natürlich gar nicht erst an, IPs zu blockieren. Aaron B. warnt eindringlich: Wer nicht ganz genau weiß, was er tut, der sollte lieber die Finger von dem Tool lassen.

Ob Nepenthes wirklich so funktioniert, wie angegeben, wird auch infrage gestellt. So hätten moderne Webcrawler eine festgelegte Zahl an Seiten, die sie maximal von einer einzelnen Webseite crawlen. Diese Zahl orientiert sich häufig an der Popularität der Webseite, schreibt ein Nutzer in einem Thread auf Hacker News. Das endlose Labyrinth, das Nepenthes eigentlich sein will, würde dann zwar nicht mehr funktionieren – aber zum Ziel, die eigenen Inhalte vor Crawling zu schützen, könnte das Tool trotzdem beitragen. Im Gespräch mit 404 Media kommentiert B. das Argument aus dem Hacker News-Thread: "Wenn das wahr ist, ist laut meinen Zugriffsdaten selbst der allmächtige Google-Crawler nicht auf diese Weise geschützt."

(nen)