Netzwerk hinter Stack Overflow gibt Daten nicht mehr an das Internet Archive

Das Stack-Exchange-Netzwerk stellt das vollständige Abbild seiner Daten nur noch nach Log-in über die eigenen Seiten bereit.

In Pocket speichern vorlesen Druckansicht 24 Kommentare lesen

(Bild: iX mit KI (Dall-E 3))

Lesezeit: 3 Min.

Stack Exchange hat angekündigt, den Dump der Daten künftig nur noch über die internen Seiten anzubieten. Die bisherige Partnerschaft mit dem Internet Archive beendet das Netzwerk von Frage-Websites, zu dem die Developer-Site Stack Overflow gehört.

Die Änderung kündigten die Betreiber am 12. Juli an und begründeten sie zwei Wochen später genauer in einem Update. Stack Exchange will demnach vor allem sicherstellen, dass die Anbieter großer Sprachmodelle (Large Language Models, LLMs) sich an die im Januar im Stack-Overflow-Blog veröffentlichten Richtlinien zu sozial verantwortlicher KI halten.

Die zuletzt im April 2024 erfolgte Freigabe im Internet Archive erlaubte es, die Inhalte weitgehend uneingeschränkt unter der CC-by-SA-4.0-Lizenz zu verwenden.

Das Herunterladen der Daten von Stack Exchange erfordert dagegen künftig die Zustimmung zu folgendem Zusatz: "Ich habe verstanden, dass mir diese Datei für meinen eigenen Gebrauch und für Projekte zur Verfügung gestellt wird, die nicht das Training eines großen Sprachmodells (LLM) enthalten. Sollte ich diese Daten für das Training eines LLM verbreiten, behält Stack Overflow sich das Recht vor, mir den Zugang zu zukünftigen Downloads dieses Daten-Dumps zu verweigern".

Diese Ergänzung hat bei Usern bereits einigen Unmut hervorgerufen. Ein Beitrag auf Stack Exchange weist darauf hin, dass die Lizenz CC BY-SA 4.0 explizit zusätzliche Einschränkungen zur Lizenz verbiete.

LLMs sind schon deshalb eine Herausforderung für Stack Overflow, weil sie das grundlegende Geschäftsmodell des Netzwerks gefährden. Wer früher auf Stack Overflow nach Codebeispielen für eine bestimmte Problemlösung gesucht hat, fragt heute oft GitHub Copilot oder ChatGPT.

Ende 2022 hatte Stack Overflow zudem Inhalte auf der eigenen Plattform untersagt, die mit ChatGPT erstellt wurden, da die Inhalte potenziell der Site und ihren Usern schade.

Allerdings kündigte das Unternehmen im Februar eine strategische Zusammenarbeit für generative KI mit Google und im Mai 2024 eine Partnerschaft mit OpenAI an, dem Unternehmen hinter ChatGPT, und Codex als Basis von GitHub Copilot.

In einem Beitrag eines Stack-Exchange-Mitglieds mit äußerst hoher Reputation, der Bewertungsskala des Netzwerks, steht: "Was sie (Stack Exchange, Anm. d. Red.) nicht sagen, ist, dass sie das Abbild der Daten weiterhin für generative KI verkaufen, sie wollen einfach nur nicht, dass die Firmen hinter GenAI es kostenlos bekommen können".

Für User bedeutet die Änderung kurzfristig, dass der turnusmäßige Dump im Juli zum Internet Archive nicht erfolgen wird. Da die Umstellung noch etwas Zeit benötige, lande er laut Stack Exchange auch voraussichtlich erst Mitte August im eigenen Netzwerk.

(rme)