Reddit sperrt Suchmaschinen und KI-Bots aus - wenn diese nicht bezahlen
GroĂźe Suchmaschinen und KI-Datensammler werden von Reddit blockiert. Nur Google ist ausgenommen. Grund dĂĽrfte der KI-Lizenzdeal Reddits mit Google sein.
Suchen Internetnutzer mithilfe etwa von Bing oder DuckDuckGo nach bestimmten Themen, werden sie keine aktuellen Inhalte von Reddit zu sehen bekommen. Wird jedoch die Google-Suchmaschine genutzt, tauchen auch neue Reddit-Vorschläge auf. Denn Reddit hat begonnen, verschiedene Suchmaschinen und deren Webcrawler auszusperren, sollten sich diese nicht mit der Online-Plattform auf eine Lizenzvereinbarung einigen. Google dürfte ausgenommen sein, weil Google Inhalte von Reddit für KI-Training lizenziert hat.
Wird die Internetsuche auf eine bestimmte Website beschränkt mit dem bekannten Suchmaschinentrick "site:reddit.com", liefern selbst die größten Google-Alternativen wie Microsofts Bing, DuckDuckGo, Mojeek und Qwant nur ältere Ergebnisse, berichtet 404 Media. Demnach hat Reddit diese Suchmaschinen seit rund einer Woche ausgesperrt, sodass die Inhalte der Plattform seit dem nicht mehr von den entsprechenden Webcrawlern abgesucht und indiziert werden können. Lediglich Suchmaschinen wie etwa Kagi, die Googles Index verwenden, liefern noch aktuelle Reddit-Inhalte.
Reddit macht Suchmaschinendrohung wahr
Bereits im Herbst 2023 hatte Reddit mit dem Ausschluss von Suchmaschinen gedroht. Denn bei Reddit will man von KI-Firmen Geld dafür, dass KI-Technik mit den Inhalten trainiert werden. Weil der Social-News-Aggregator zu den wertvollsten Quellen für Trainingsdaten überhaupt gehört, führte Reddit Verhandlungen mit etlichen KI-Firmen. Einem dieser KI-Unternehmen erlaubt Reddit Zugriff auf seiner Plattform - für 60 Millionen Dollar, nämlich Google. Jetzt wurden andere Suchmaschinen ohne Lizenzdeal offenbar tatsächlich ausgeschlossen.
Doch Reddit widerspricht. "Dies hat überhaupt nichts mit unserer jüngsten Partnerschaft mit Google zu tun", erklärt ein Reddit-Sprecher gegenüber The Verge. "Wir haben mit mehreren Suchmaschinen Gespräche geführt. Wir konnten nicht mit allen eine Einigung erzielen, da einige nicht in der Lage oder nicht willens sind, durchsetzbare Zusagen bezüglich ihrer Verwendung von Reddit-Inhalten, einschließlich ihrer Verwendung für KI, zu machen."
robots.txt gegen KI-Datensammler
Wie praktisch alle Websites verwendet Reddit die Datei robots.txt, mit der Webcrawler daran gehindert werden, alle oder bestimmte Inhalte abzuscannen. Diese Datei hat Reddit letzten Monat geändert, um Datenextraktion ("Data Scraping") zu verhindern. Denn wie die Webcrawler der Suchmaschinen, die Inhalte für die Suche der Nutzer indizieren, suchen auch Unternehmen Künstlicher Intelligenz (KI) Webseiten ab, aber eben zur Datengewinnung, um ihre KI-Modelle besser trainieren zu können.
Lesen Sie auch
Bessere Websuche dank KI | c’t uplink
Ecosia und Qwant bauen europäischen Suchmaschinen-Index​
Perplexity hat die US-Wahl begleitet – anders als ChatGPT und Co.
#heiseshow: Sorge vor der Cloud-Falle, Google Wallet fĂĽr Kinder, ChatGPT-Suche
Heimliche Ăśberwachung: BĂĽrgerrechtler gegen Werbung fĂĽr Cyberstalking-Apps
Das missfällt Website-Betreibern, schließlich nutzen KI-Chatbots damit fremde Inhalte für ihre eigenen Zwecke. Zudem werden die Inhalte von der KI in einigen Fällen auch noch falsch dargestellt. Allerdings ist auch die robots.txt-Datei keine unüberwindbare Mauer. Denn erst kürzlich wurde bekannt, dass die KI-Suchmaschine Perplexity robots.txt ignoriert und Informationen ohne Erlaubnis und teilweise sogar falsch wiedergibt.
(fds)