KI-Training: Urheberrechtlich geschützter Datensatz von Buchtexten jetzt offline

Monatelang war eine Textdatei aus fast 200.000 Buchtexten einfach abrufbar, damit wurden KI-Systeme trainiert. Nun wurde sie offline genommen – und analysiert.

In Pocket speichern vorlesen Druckansicht 76 Kommentare lesen
Buchstapel von der Seite

(Bild: jakkaje879/Shutterstock.com)

Lesezeit: 3 Min.

Eine gigantische Sammlung von Texten aus urheberrechtlich geschützten Büchern, mit denen mehrere KI-Modelle trainiert wurden, ist auf Betreiben einer dänischen Antipiraterieorganisation aus dem Internet entfernt worden. Die Datensammlung namens "Books3" umfasst nach Angaben der Ersteller 197,000 Buchtexte in englischer Sprache als Textdatei. Einer am Wochenende publik gemachten Analyse zufolge, handelt es sich mehrheitlich um Sachbuchtexte. Aber auch Zehntausende belletristische Werke etwa von Stephen King, Margaret Atwood und dem Scientology-Gründer L. Ron Hubbard sind in der über 37 Gigabyte großen Textdatei enthalten. Die Mehrheit der Werke sind demnach nicht älter als 20 Jahre. Trainiert wurde damit unter anderem eine KI der Facebook-Mutter Meta.

Aus dem Netz genommen wurde die Datensammlung laut Torrentfreak infolge einer diesbezüglichen Aufforderung der RettighedsAlliancen einer dänischen Allianz von Rechteinhabern. Die hat damit nach eigener Aussage "der Verwendung illegaler Kopien dänischer und ausländischer Bücher für das KI-Training" ein Ende gesetzt. Vorher habe man in der Sammlung "illegaler E-Books" Werke dänischer Verfasser entdeckt. Die Organisation spricht von einem klaren Signal dafür, dass es Rechteinhaber nicht akzeptieren, dass illegale Kopien ihrer Werke zum Training der Sprachmodelle benutzt werden. Der Schritt verhindert aber lediglich den weiteren Download der Datei. Wer die Daten bereits hat, verfügt weiterhin darüber. Auch damit trainierte KI-Modelle gibt es einige.

Wenige Tage nach der Bekanntmachung der Löschung ist im US-Magazin The Atlantic am Wochenende eine Analyse von "Books3" erschienen. Anhand der enthaltenen ISBNs ließ sich demnach rekonstruieren, dass in der Datenbank tatsächlich mehr als 190.000 E-Books enthalten waren. 20.000 konnten die mit der Analyse Befassten jedoch nicht identifizieren. Beim Rest stammte der größte Teil aus dem Großverlag Penguin Random House, gefolgt von HarperCollins. Zusammengetragen wurde es demnach von dem Entwickler Shawn Presser, der damit OpenAI etwas habe entgegensetzen wollen. Dank "Books3" hätten andere KI-Entwickler Systeme trainieren können, die dessen GPT-Modellen vergleichbar wären. Das Ziel habe Bedenken wegen der fehlenden Lizenzierung überwogen, sagte er dem US-Magazin.

"Books3" ist demzufolge Teil einer noch viel größeren Datensammlung namens "The Pile". Die enthält neben den Buchtexten unter anderem Untertitel von Youtube, Dokumente des Europäischen Parlaments, Wikipedia-Texte und interne E-Mails des kollabierten US-Konzerns Enron. Obwohl das Onlineportal "The Eye" der Aufforderung zur Entfernung von "Books3" nachgekommen ist, sind beide Datensammlungen weiterhin online abrufbar, schreibt Torrentfreak. Vorgehalten wird die Buchsammlung demnach unter anderem vom Internet Archive, das derzeit in einer anderen Angelegenheit einen Rechtsstreit mit US-Buchverlagen austrägt.

(mho)