Studie für Rechteinhaber: KI-Training ist Urheberrechtsverletzung​

Eine Analyse der Initiative Urheberrecht will Licht ins Dunkel von KI-Training bringen. Die Erlaubnis für Text- und Data-Mining greift demnach nicht.​

In Pocket speichern vorlesen Druckansicht 88 Kommentare lesen
Abstraktes Hirn mit AI Schriftzug

(Bild: incrediblephoto / Shutterstock.com)

Lesezeit: 5 Min.

Die Initiative Urheberrecht (IU) sieht mit einer von ihr in Auftrag gegebenen Studie den Nachweis erbracht, dass die Nachbildung von Werken durch Modelle für generative Künstliche Intelligenz (KI) wie ChatGPT von OpenAI oder Gemini von Google eine urheberrechtlich relevante Vervielfältigung darstellt. Dies könnte weitreichende Folgen für die weitere Nutzbarkeit etwa von Chatbots haben. Der genauere Blick auf die verwendete Technologie offenbare, dass "das Training solcher Modelle kein Fall von Text- und Data-Mining" ist, erklärte der Hannoveraner Rechtsprofessor Tim W. Dornis, der die Analyse zusammen mit dem Magdeburger Informatiker Sebastian Stober vorgenommen hat. "Es handelt sich um eine Urheberrechtsverletzung."

Im deutschen und europäischen Urheberrecht finde sich keine gültige Einschränkung des exklusiven Verwertungsrechts, die Nutzungen im Sinne eines kommerziellen KI-Trainings zulasse, führte Dornis bei der Präsentation der Untersuchung am Donnerstag im EU-Parlament aus. Mit der Arbeit wollen die beiden Professoren prinzipiell Licht in die Blackbox des Anlernens großer Sprachmodelle bringen. Demnach extrahieren und verwerten die KI-Hersteller umfangreich die syntaktischen und damit urheberrechtlich geschützten Informationen der herangezogenen Werke in den Trainingsdaten.

Urheberrechtlich geschützte Werke werden bei der Datenerfassung kopiert, ganz oder teilweise in den KI-Modellen repräsentiert und können schließlich auch von den Endnutzern vervielfältigt werden, lautet der Tenor der Studie. Beim Training komme es "zu zahlreichen verschiedenen Handlungen der Vervielfältigung urheberrechtlich geschützter Werke". Dies starte mit deren "Sammlung, Vorbereitung und Speicherung". Sowohl beim Pre-Training als auch beim Fine-Tuning würden dann relevante Kopien "im Innern" des Modells erstellt. Ein expliziter Speichermechanismus sei zwar nicht angelegt, die Trainingsdaten würden in den aktuellen generativen Modellen aber durchaus "memorisiert" – also quasi in deren Gedächtnis behalten.

Schließlich könne es bei Einsatz generativer KI-Modelle insbesondere durch deren Nutzer bei Prompts zu Kopien und Umgestaltungen der für das Training verwerteten Werke kommen, arbeiten die Forscher heraus. Das Veröffentlichungsrecht der Kreativen werde verletzt.

Stein des Anstoßes: ChatGPT & Co. sowie Bildgeneratoren wie DALL-E, Stable Diffusion und Midjourney beruhen auf großen Sprach- beziehungsweise Bildmodellen. Die Betreiber trainieren diese mit Millionen von Fotos, Audiodateien und Texten, die sie im Internet finden. Sie fragen Urheber und Verwerter in der Regel nicht, ob sie mit dieser Nutzung einverstanden sind. Der Einsatz der großenteils geschützten Werke ist im Bereich der KI-Modellierung nötig, damit die Algorithmen Muster im vorhandenen Material erkennen und darauf basierend adaptive Inhalte erstellen können.

In der EU haben die Gesetzgeber mit der jüngsten großen Urheberrechtsnovelle Ausnahmen vom exklusiven Verwertungsrecht fürs Text- und Data-Mining festgelegt. Der Bundestag hat diese Vorgabe in den Paragrafen 60d und 44b des Urheberrechtsgesetzes umgesetzt. Zulässig sind demnach Vervielfältigungen von rechtmäßig zugänglichen digitalen Werken etwa fürs KI-Training, "um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen". Dazu berechtigt sind Forschungseinrichtungen, sofern sie nicht kommerzielle Zwecke verfolgen, sämtliche Gewinne in die Wissenschaft reinvestieren oder "im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig sind". Das soll ein großflächiges Datenschürfen durch Forschungsstätten im Dienste von Unternehmen verhindern.

Urheber und Verwerter, die trotz solcher Vorkehrungen ein Text- und Data-Mining bei ihren online verfügbaren Werken verhindern wollen, können sich Nutzungen selbst vorbehalten. Eine solche Ansage ist nur dann wirksam, wenn sie "in maschinenlesbarer Form erfolgt" – also etwa über die Datei robots.txt.

Bisherige urheberrechtliche Schranken erfassen die mit dem Training generativer KI-Modelle einhergehenden Eingriffe in das Urheberrecht aber "lediglich in einigen wenigen, praktisch nicht relevanten Konstellationen", betonen die Verfasser. Auch wenn das Training außerhalb Europas stattfinde, könnten sich die Entwickler nicht europäischen Vorschriften entziehen.

Der EU-Abgeordnete Axel Voss (CDU) begrüßte die nun vorliegenden Belege. Er erhofft sich von der Studie "weitere wichtige Hinweise und Anregungen für ein besseres Gleichgewicht zwischen dem Schutz der menschlichen Kreativität und der Förderung von KI-Innovationen". Die Forscher legen dem Gesetzgeber nahe zu entscheiden, wie das Gleichgewicht zwischen dem Schutz menschlicher Kreativität und der Förderung von KI-Innovationen hergestellt werden könne. Für Hanna Möllers, Justiziarin des Deutschen Journalistenverbands (DJV), haben die Ergebnisse "Sprengkraft". Sie zeigten, "dass wir es hier mit einem groß angelegten Diebstahl am geistigen Eigentum zu tun haben". Nun müsse die Politik dem "Raubzug" zulasten von Urhebern ein Ende setzen.

Die Experten lieferten "die technologische und urheberrechtliche Basis dafür, die juristische Betrachtung generativer KI "endlich vom Kopf auf die Füße zu stellen", hob Matthias Hornschuh von der IU hervor. Längst wäre eigentlich "ein neuer, ertragreicher Lizenzmarkt am Horizont" erkennbar, dem sich Anbieter generativer KI bislang geschickt verweigert hätten. Vor allem gegen OpenAI sind bereits diverse Klagen von Urhebern und Medienhäusern wie der New York Times anhängig.

(mki)