Reddit sperrt Suchmaschinen und KI-Bots aus - wenn diese nicht bezahlen

Große Suchmaschinen und KI-Datensammler werden von Reddit blockiert. Nur Google ist ausgenommen. Grund dürfte der KI-Lizenzdeal Reddits mit Google sein.

In Pocket speichern vorlesen Druckansicht 27 Kommentare lesen
Reddit-Logo auf Smartphone-Bildschirm

(Bild: Ascannio/Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Frank Schräer

Suchen Internetnutzer mithilfe etwa von Bing oder DuckDuckGo nach bestimmten Themen, werden sie keine aktuellen Inhalte von Reddit zu sehen bekommen. Wird jedoch die Google-Suchmaschine genutzt, tauchen auch neue Reddit-Vorschläge auf. Denn Reddit hat begonnen, verschiedene Suchmaschinen und deren Webcrawler auszusperren, sollten sich diese nicht mit der Online-Plattform auf eine Lizenzvereinbarung einigen. Google dürfte ausgenommen sein, weil Google Inhalte von Reddit für KI-Training lizenziert hat.

Wird die Internetsuche auf eine bestimmte Website beschränkt mit dem bekannten Suchmaschinentrick "site:reddit.com", liefern selbst die größten Google-Alternativen wie Microsofts Bing, DuckDuckGo, Mojeek und Qwant nur ältere Ergebnisse, berichtet 404 Media. Demnach hat Reddit diese Suchmaschinen seit rund einer Woche ausgesperrt, sodass die Inhalte der Plattform seit dem nicht mehr von den entsprechenden Webcrawlern abgesucht und indiziert werden können. Lediglich Suchmaschinen wie etwa Kagi, die Googles Index verwenden, liefern noch aktuelle Reddit-Inhalte.

Bereits im Herbst 2023 hatte Reddit mit dem Ausschluss von Suchmaschinen gedroht. Denn bei Reddit will man von KI-Firmen Geld dafür, dass KI-Technik mit den Inhalten trainiert werden. Weil der Social-News-Aggregator zu den wertvollsten Quellen für Trainingsdaten überhaupt gehört, führte Reddit Verhandlungen mit etlichen KI-Firmen. Einem dieser KI-Unternehmen erlaubt Reddit Zugriff auf seiner Plattform - für 60 Millionen Dollar, nämlich Google. Jetzt wurden andere Suchmaschinen ohne Lizenzdeal offenbar tatsächlich ausgeschlossen.

Doch Reddit widerspricht. "Dies hat überhaupt nichts mit unserer jüngsten Partnerschaft mit Google zu tun", erklärt ein Reddit-Sprecher gegenüber The Verge. "Wir haben mit mehreren Suchmaschinen Gespräche geführt. Wir konnten nicht mit allen eine Einigung erzielen, da einige nicht in der Lage oder nicht willens sind, durchsetzbare Zusagen bezüglich ihrer Verwendung von Reddit-Inhalten, einschließlich ihrer Verwendung für KI, zu machen."

Wie praktisch alle Websites verwendet Reddit die Datei robots.txt, mit der Webcrawler daran gehindert werden, alle oder bestimmte Inhalte abzuscannen. Diese Datei hat Reddit letzten Monat geändert, um Datenextraktion ("Data Scraping") zu verhindern. Denn wie die Webcrawler der Suchmaschinen, die Inhalte für die Suche der Nutzer indizieren, suchen auch Unternehmen Künstlicher Intelligenz (KI) Webseiten ab, aber eben zur Datengewinnung, um ihre KI-Modelle besser trainieren zu können.

Das missfällt Website-Betreibern, schließlich nutzen KI-Chatbots damit fremde Inhalte für ihre eigenen Zwecke. Zudem werden die Inhalte von der KI in einigen Fällen auch noch falsch dargestellt. Allerdings ist auch die robots.txt-Datei keine unüberwindbare Mauer. Denn erst kürzlich wurde bekannt, dass die KI-Suchmaschine Perplexity robots.txt ignoriert und Informationen ohne Erlaubnis und teilweise sogar falsch wiedergibt.

(fds)