Large Language Models: US-Autoren verklagen OpenAI wegen Copyright-Verletzung​

OpenAI hat ungefragt fremde Texte kopiert, um daran sein Large Language Model zu trainieren. Romane sind dafür besonders wertvoll. Aber dürfen sie das?​

In Pocket speichern vorlesen Druckansicht 36 Kommentare lesen
Mehrere offene Bücher direkt an einander gereiht

Das Symbolbild zeigt beliebige Bücher, die nichts mit der Klage zu tun haben müssen.

(Bild: Daniel AJ Sokolov)

Lesezeit: 4 Min.

Mehrere erfolgreiche Autoren verklagen OpenAI wegen Copyright-Verletzung. Microsoft-Partner OpenAI habe ungefragt copyright-geschützte Werke der Kläger kopiert und für das Training seiner Large Language Models namens GPT genutzt. Der darauf basierende Chatbot ChatGPT kenne die Werke auswendig und könne sie korrekt zusammenfassen; außerdem schreibe er auf Zuruf Texte im Stile der Kläger, auch unter Verwendung bestimmter, eindeutiger Phrasen aus deren Werken.

Damit, so die am Freitag eingereichte Klage, verletze OpenAI das US-Copyright der Urheber. Zudem verletze es den Digital Millennium Copyright Act (DMCA), weil es notwendige Angaben über Originalurheber, Buchtitel, Nutzungsbedingungen und so weiter unterschlägt, wenn ChatGPT neue Texte im Stile bestimmter Autoren zusammenstellt. Diese Texte stellen nach Ansicht der Kläger Ableitungen der Originalwerke dar; die Unterschlagung der Copyright-Angaben sei für sich genommen rechtswidrig.

Zusätzlich erhebt die Klage juristische Vorwürfe wegen unlauteren Wettbewerbs nach kalifornischem Recht, unerlaubte Handlungen aus Fahrlässigkeit und ungerechtfertigte Bereicherung. Die Klage erfolgt nicht bloß im Namen Michael Chabon, David Henry Hwang, Matthew Klam, Rachel Louise Snyder und Ayelet Waldman, sondern sie beantragen die Zulassung als Sammelklage im Namen aller Inhaber von Copyright an Texten in den USA. Die Klage unterstreicht, dass OpenAI selbst die große Bedeutung langer, professionell geschrieben Texte für das Training seiner Large Language Models hervorgehoben hat.

Gefordert werden Schadenersatz, Gewinnabschöpfung, zivilrechtliche Strafen, Zinsen und Ersatz der Verfahrenskosten. OpenAI war für eine Stellungnahme nicht erreichbar. Die Klage heißt Chabon et al v OpenAI, wird aber auch Authors v. OpenAI genannt. Sie ist am US-Bundesbezirksgericht für das nördliche Kalifornien unter dem Az. 3:23-cv-04625 anhängig.

Es handelt sich keineswegs um die erste Sammelklage gegen OpenAI wegen ungefragter und damit unlizenzierter Nutzung fremder Werke vor demselben Bundesbezirksgericht für das nördliche Kalifornien. Bereits im November des Vorjahres hat der Programmierer, Autor und Anwalt Matthew Butterick eine Sammelklage gegen Github, Microsoft und OpenAI beantragt; die Beklagten hätten den Programier-Bot namens Github Copilot an fremdem Code trainiert, ohne die jeweiligen Lizenzbedingungen zu beachten (J. Doe v. Github et al, Az. 3:22-cv-06823. Im Juni (Tremblay et Awad v OpenAI et al, Az. 3:23-cv-03223) und Juli (Silverman et al v OpenAI et al, Az. 3:23-cv-03416 folgten jeweils eine weitere Sammelklage seitens Butterick im Namen von Buchautoren. Es läge nahe, die verschiedenen Autoren-Sammelklagen zusammenzulegen.

Ende Juni erhob eine Gruppe von Personen, die sich öffentlich nur anhand ihrer Initialen zu erkennen geben, eine Klage: OpenAI und dessen Geldgeber Microsoft hätten Online-Postings der Kläger sowie Stimmaufnahmen eines Minderjährigen ohne Genehmigung ausgenutzt. (P.M. et al v OpenAI et al, Az. 3:23-cv-03199). Diese auffallend wortreiche Klageschrift strebt ebenfalls den Status der Sammelklage an, enthält aber keine Vorwürfe rund um Immaterialgüter, sondern zeiht OpenAI der Verletzung verschiedener Datenschutzbestimmungen, des Betrugs, des unlauteren Wettbewerbs und ähnlicher Rechtsverletzungen.

Vergangene Woche haben zwei ebenfalls nur mit Initialen bezeichnete Programmierer OpenAI verklagt und die Zulassung als Sammelklage beantragt (A.T. et J. H. v OpenAI et al, Az. 3:23-cv-04557). Der Kernvorwurf: Microsoft und OpenAI würden Daten hunderter Millionen User nutzen, um ihre Künstlichen Intelligenzen zu verbessern, ohne dass die Betroffenen das wüssten. Die Daten stammten aus Anwendungen und von Sozialen Netzwerken, die bisweilen ohne Wissen ihrer User Software von ChatGPT einbinden. Die Klage weist erhebliche Ähnlichkeit zur bereits erwähnten Juni-Sammelklage P.M. v OpenAI auf.

Schlagzeilen machte im Juni ein Radiomoderator, der OpenAI wegen übler Nachrede verklagt hat. ChatGPT hat dem Mann Betrug und Veruntreuung zulasten einer bestimmten Organisation unterstellt. Tatsächlich war der Kläger nie dort beschäftigt und hat sich dort auch nichts zuschulden kommen lassen. Dieses Verfahren (Walters v OpenAI, Superior Court of Gwinnet County, Georgia, wird eventuell verlegt an das US-Bundesbezirksgericht für das nördliche Georgia unter Az. 1:23-cv-3122) ist keine Sammelklage.

(ds)