New York Times sperrt ChatGPT-Bot

Die New York Times setzt den GPTBot auf die Sperrliste. Der Verlag fordert Kompensation dafür, dass KI-Modelle von OpenAI mit Zeitungsartikeln trainiert werden.

91

(Bild: Daniel AJ Sokolov)

22.08.2023, 22:07 Uhr

Lesezeit: 3 Min.

Von

Daniel AJ Sokolov

Die New York Times verbietet dem GPTBot, die Webseite der Zeitung abzugrasen. Der GPTBot wird von OpenAI betrieben, um laufend neue Inhalte zu kopieren, mit denen dann das Sprachmodell GPT4 trainiert werden kann. GPT4 ist Grundlage des Chatbots ChatGPT. OpenAI bedient sich seit Jahren an zahllosen immaterialgüterrechtlich geschützten Werken, ohne Zustimmung der Rechteinhaber. Die New York Times (NYT) nimmt das nicht mehr hin.

Seit Wochen verhandelt der Verlag mit OpenAI über einen Vertrag, der die bisherige und zukünftige Verwendung von NYT-Inhalten und die dafür fällige Gegenleistung regeln soll. Diese Verhandlungen kommen offenbar auf keinen grünen Zweig. Vergangene Woche hat die nicht kommerzielle US-Rundfunkanstalt NPR berichtet, dass die NYT eine Klage gegen OpenAI prüft.

Im Erfolgsfall müsste OpenAI alle NYT-Inhalte aus seinen Sprachmodellen entfernen. Allerdings können Algorithmen nichts vergessen. Daher könnte OpenAI dann gezwungen sein, seine Sprachmodelle von Grund auf neu aufzubauen. Natürlich würden dann auch viele andere Rechteinhaber auf Entschädigung pochen.

Nutzungsbedingungen + robots.txt

Screenshot: User-agent: CCBot Disallow: / User-agent: GPTBot Disallow: / User-agent: ia_archiver Disallow: / — Screenshot eines Auszug der Datei https://www.nytimes.com/robots.txt

(Bild: NYT/Daniel AJ Sokolov)

Bereits am 3. August hat der Verlag die Nutzungsbedingungen geändert. Sie verbieten seither ausdrücklich, NYT-Inhalte ungefragt für das Training von Large Language Models (LLM) zu verwenden. Vergangene Woche hat der Verlag auch die Datei https://www.nytimes.com/robots.txt aktualisiert. Das ist The Verge aufgefallen.

Die Datei robots.txt informiert automatisierte Crawler, welche Teile einer Webseite für sie tabu sind. Crawler können das ignorieren, doch halten sich die großen Betreiber in aller Regel daran. Die meisten Crawler wollen gern gesehene Gäste sein; ihre Betreiber scheuen sowohl juristische Schwierigkeiten als auch technische Scharmützel mit IP-Sperrlisten, Captchas und Rate-Limits.

Konkret stehen aktuell fünf Crawler auf der NYT-Sperrliste: Schon lange gelistet sind das Internet Archiv, das dafür laufend die Datei https://www.nytimes.com/robots.txt selbst sichert, sowie zwei Bots von Omgili (inzwischen webz.io). Diesen Sommer hinzugekommen ist der CCBot von Common Crawl. Diese spendenfinanzierte Organisation erstellt seit fünfzehn Jahren umfangreiche "Kopien des Web", die dann gebührenfrei für Forschungszwecke zur Verfügung stehen. Jeden Monat kommen mehrere Milliarden Webpages mit hunderten Terabyte an Daten zusammen – die wiederum von Dritten für das Training von KI-Sprachmodellen herangezogen werden.

Und seit 17. August steht nun auch der GPTBot auf dem Index. Nur bestimmte NYT-Inhalte abgreifen darf übrigens der Twitterbot. Die New York Times ist die größte englischsprachige Zeitung gemessen an Online-Abonnements.

Lesen Sie auch

mechanische Schreibmaschine mit eingespanntem Formular steht auf einem Tisch

OpenAI zieht KI-Detektor zurück

(ds)

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}