Künstliche Intelligenz: Kampf um das Urheberrecht

Seite 3: Goldgräberstimmung bei KI-Dienstleistern, Anwälten, Kunstschaffenden

Inhaltsverzeichnis

Mit Stable Diffusion generierte Bildvariation zum Prompt: "Artificial Intelligence: Final Battle over Copyrights, cinematic, colorful background, concept art, drama, trending on Artstation". (Seed 1, Steps 45, Guidance Scale 7)

Noch intensiver als die Frage nach der Schutzfähigkeit des Outputs wird derzeit allerdings die Frage diskutiert, ob eine Zustimmung der Urheber der Werke, die zum Training eines KI-Modells verwendet wurden, eingeholt werden muss. Erste Urheberrechtsklagen sind bereits anhängig, etwa von den Künstlerinnen Sarah Andersen, Kelly McKernan und Karla Ortiz gegen Stability AI und Midjourney in Kalifornien. Als Begründung für die Urheberrechtsverletzung wird angeführt, dass die mit Stable Diffusion und Midjourney erzeugten Bilder Bearbeitungen der als Trainingsmaterial verwendeten Bilder seien und letztlich komplexe "Collage-Tools" darstellten.

Pikanterweise wurde die Klage als Class Action, also als Sammelklage, eingereicht, um möglichst vielen Künstlern die Möglichkeit zu geben, sich zu beteiligen und entsprechend hohe Schadenersatzforderungen geltend zu machen. Bei der Class Action muss eine „Gruppe“ definiert werden. Wenn man dazu gehört, kann man vom Ergebnis profitieren. Auch Getty Images hat vor dem High Court in London Klage gegen Stability AI wegen Urheberrechtsverletzung eingereicht.

Der Widerstand eines Teils der Kunstszene drückt sich aber nicht nur in Klagen aus. Auf der Kunstplattform Artstation wurde eine Protestaktion mit dem Label "No to AI-generated images" initiiert – unter anderem, um das weitere Training mit den dort gezeigten Bildern zu erschweren. Denn auf Artstation wird in Prompts gerne Bezug genommen, um die generelle Bildqualität zu verbessern, da die dort veröffentlichten Bilder umfangreich für das Training genutzt wurden: "trending on Artstation" ist ein häufig verwendeter Promptzusatz.

Schaut man sich das Thema Trainingsdaten genauer an, sind zwei Fälle auseinanderzuhalten: wenn Bilder, Texte oder Programmcode lediglich zum Training eines neuronalen Netzes verwendet werden, ist zunächst auch nur dafür eine urheberrechtliche Erlaubnis erforderlich. Wer urheberrechtlich geschützte Bilder kopiert, braucht eine Erlaubnis. Entweder durch eine Lizenz (wie CC-lizenzierte Bilder) oder gesetzlich. Gesetzlich ist der § 44b UrhG die Erlaubnis – die gerade deswegen eingeführt wurde, weil Big Data Analysen von urheberrechtlich geschützten Inhalten sonst faktisch nicht möglich sind.

Anders ist die Situation, wenn ein vorbestehendes Werk erkennbar auch im Output enthalten ist, etwa weil es aus einer Datenbank für ein Outpainting verwendet wurde. Hier wird im Regelfall die Erlaubnis des Urhebers benötigt. Die neue "Pastiche"-Schranke des § 51a UrhG enthält allerdings eine gesetzliche Erlaubnis, die in solchen Fällen einschlägig sein könnte. Zu dem Begriff Pastiche gibt es noch keine Definition. Die Gesetzesbegründung spricht von einer Erlaubnis von "modernen Formen transformativer Nutzung urheberrechtlich geschützter Inhalte insbesondere im digitalen Umfeld" (BT-Drs. 19/27426, S. 89).

Auch wenn der Begriff des "Pastiche" noch keine klaren Konturen besitzt, geht es im Ergebnis um "eine Auseinandersetzung mit einem vorbestehenden Werk, das erkennbar ist, aber nicht bloß zur weiteren Verwertung kopiert wird". In den Worten der Gesetzesbegründung: "Anders als bei Parodie und Karikatur, die eine humoristische oder verspottende Komponente erfordern, kann diese beim Pastiche auch einen Ausdruck der Wertschätzung oder Ehrerbietung für das Original enthalten, etwa als Hommage." Dies dürfte zu weiteren offenen und von den Gerichten zu klärenden Auslegungsfragen führen: Eine ausführliche Darstellung dazu findet sich bei Kreutzer, Gutachten "Der Pastiche im Urheberrecht".

Für das bloße Training stellt sich die Rechtslage in den USA und Deutschland ganz unterschiedlich dar. In den USA wird Machine Learning anhand der allgemeinen Regeln behandelt und es dürfte die Frage im Vordergrund stehen, ob die Verwendung von Bildern zum Training unter Fair Use fällt und damit ohne Lizenz erlaubt ist. Im deutschen Urheberrecht sieht § 44b UrhG eine besondere gesetzliche Ausnahme für Data Mining vor, die hier als Erlaubnis in Betracht kommt.

Data Mining: gesetzliche Ausnahme

§ 44b UrhG

(1) Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.

(2) Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

(3) Nutzungen nach Absatz 2 Satz 1 sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.

Die Regelung des § 44b UrhG basiert auf europäischem Recht, und zwar auf der DSM-Richtlinie (Digital Single Market) zum Urheberrecht im digitalen Binnenmarkt. Die Verwendung von Trainingsdaten im Rahmen des Machine Learnings dürfte ein typischer Anwendungsfall sein, da die automatisierte Analyse der Mustererkennung dient.

Damit können urheberrechtlich geschützte Trainingsdaten (wie Bilder aus dem Internet) lizenzfrei für das Machine Learning verwendet werden. Die Trainingsdaten müssen nach Abschluss des Trainings lediglich gelöscht werden. Die Urheber haben jedoch die Möglichkeit eines Opt-out, wenn sie ihre Werke nicht für ein Training zur Verfügung stellen möchten. Dies soll durch einen maschinenlesbaren Vorbehalt geschehen. Die Details dieser Regelung, die erst 2021 in das Urheberrechtsgesetz aufgenommen wurde, sind allerdings noch recht unklar.

Kann ein Urheber die Nutzung seines Werkes verhindern, wenn ein Vorbehalt nicht möglich ist, beispielsweise bei einer urheberrechtswidrigen Nutzung auf einer fremden Website? Reicht es aus, wenn die AGB einer Website die Nutzung zu Trainingszwecken verbieten, da auch AGB maschinenlesbar sind, oder muss die entsprechende Information in einer robots.txt enthalten sein? Auch bei der Auslegung der Voraussetzungen der Schranke des § 44b Abs. 1 UrhG gibt es noch Auslegungsfragen, die einer gerichtlichen Klärung bedürfen.

AI: Battle over Copyright – Promptstrecke in Stable Diffusion (5 Bilder)

Artificial Intelligence: Battle over Copyright

Prompt: Artificial intelligence: battle over copyright, photo by Lee Miller, dramatic lighting, high detail, highly detailed, hyper-realistic, intricate, intricate sharp details, octane render, studio lighting,
Negative Prompt: bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
Seed: 3
Width: 768
Height: 512
Steps: 45
Guidance Scale: 7.5
Prompt Strength: 0.8
Sampler: euler_a
Hypernetwork Strength: 0 (Bild: Stable Diffusion)

In den USA gibt es keine dem § 44b UrhG vergleichbare Schrankenregelung. Teilweise wird angenommen, dass die allgemeine Schranke des Fair Use greift, die wiederum in Deutschland und anderen EU-Staaten nicht existiert. Auch für die Rechtslage in den USA bleibt abzuwarten, welchen Weg die Gerichte letztlich einschlagen werden. Für die aktive Modellentwicklung stellt sich damit die interessante Frage, welche Urheberrechtsordnung die größere Rechtssicherheit bietet. Denn im internationalen Urheberrecht gilt das Schutzlandprinzip, wonach das Urheberrecht des Staates anzuwenden ist, für den um Schutz nachgesucht wird. Vereinfacht bedeutet dies, dass deutsches Urheberrecht anwendbar ist, wenn das Training in Deutschland stattfindet, weil es von hier aus gesteuert wird oder die Trainingsdaten in Deutschland verarbeitet werden.

Es ist auch durchaus möglich, dass mehrere Urheberrechtsordnungen parallel anwendbar sind, weil eine Nutzungshandlung in mehreren Staaten stattfindet, wenn etwa Server an verschiedenen Standorten genutzt werden. In diesem Fall muss die Handlung in allen anwendbaren Urheberrechtsordnungen zulässig sein. Bei einem Training in den USA und in Deutschland müssten dann sowohl die Voraussetzungen des § 44b UrhG als auch die des Fair Use erfüllt sein.

Bei den bereits initiierten Gerichtsverfahren könnte wesentlich sein, ob aus einem Modell die für das Training verwendeten Bilder wieder generiert werden können, und zwar in einer Weise, dass die konkreten Bilder reproduzierbar sind und sich nicht nur die verwendeten Bilddateien identifizieren lassen. Denn dann ließe sich argumentieren; die Modelle sind eben nicht nur große, intelligente Bildarchive, die nur mit Zustimmung der Rechteinhaber genutzt werden dürfen. Die bloße Identifikation der Trainingsdaten dürfte hingegen urheberrechtlich belanglos sein: das Modell ist dann ein aliud (lateinisch für „etwas anderes“), es enthält die für das Training verwendeten Bilder nicht und ist von deren Urheberrecht unabhängig. Hier wird also zunächst eine technische Vorfrage zu klären sein, die offenbar durchaus uneinheitlich beantwortet wird und von dem jeweiligen Modell abhängen mag. Einigen Wissenschaftlern ist es jetzt gelungen, einzelne Trainingsbilder aus Stable Diffusion heraus zu berechnen.

Damit stellen sich zwei Fragen: ob bereits die Trainingsbilder urheberrechtswidrig weiterverbreitet werden – oder ob die relevante (und zulässige) urheberrechtliche Nutzungshandlung erst die Neugenerierung durch die Nutzer darstellt. Denn das Modell wird öffentlich zugänglich gemacht und daher eine eigenständige urheberrechtliche Nutzungshandlung vorgenommen, die von § 44b UrhG nicht erfasst ist. Überträgt man diese Frage auf mp3-Dateien mit Musik, wird die Brisanz deutlich.

Wenig überzeugend ist hingegen die Behauptung der Künstlerinnen Sarah Andersen, Kelly McKernan und Karla Ortiz in ihrer Klage in Kalifornien, die Modelle von Stable Diffusion und Co. würden „komprimierte Kopien“ der Trainingsbilder enthalten. Auch hier wird das richtige Technikverständnis entscheidend für die anschließende rechtliche Beurteilung sein.

Beyond Stable Diffusion: Künstliche Neuronale Netze und die Lizenzfrage

Dass komplexe technische Neuentwicklungen auch neue urheberrechtliche Fragen aufwerfen, zeigt die rechtswissenschaftliche Diskussion um die Schutzfähigkeit von künstlichen neuronalen Netzen (KNN). KI-Modelle bestehen nicht nur aus Computerprogrammen, sondern zumeist auch aus einem oder mehreren trainierten KNNs. Für Stable Diffusion existieren bereits Marktplätze mit unterschiedlich trainierten Netzen.

Die Ursprungsmodelle wurden mit NSFW-Filtern (Not-Safe-For-Work) trainiert, die unerwünschte Inhalte aussortieren. Daher sollten damit generierte Bilder keine Hakenkreuze, jugendgefährdende oder sonstige illegale Darstellungen enthalten. Die Lizenz des Modells, die CreativeML Open RAIL-M, ist deshalb auch keine klassische Open-Source-Lizenz, die die unbeschränkte Nutzung gestattet. Sie verbietet den Einsatz des Modells für bestimmte aufgelistete Verwendungen. Jedoch kann jedermann diese Modelle weiter trainieren, auch ohne Filter, und die Ergebnisse – meist als Checkpoint-Dateien – wieder anbieten. Es ist offensichtlich, dass die Beschränkungen der CreativeML Open RAIL-M-Lizenz dabei nicht immer eingehalten werden.

Bei der Durchsetzung der Lizenzbedingungen der Lizenz CreativeML Open RAIL-M, aber auch generell, stellt sich die Frage, ob KNNs urheberrechtlich geschützt sind. Anders als herkömmlicher Programmcode enthalten sie keine funktionalen Anweisungen an einen Computer, sondern die Qualität wird durch Gewichte bestimmt. Dies spricht gegen einen Schutz als Computerprogramm. Ob ein Schutz als Datenbank in Betracht kommt, ist umstritten, da anders als bei klassischen Datenbanken der systematische Abruf einzelner Daten keine Rolle spielt. Fraglich ist daher auch, ob das besondere Leistungsschutzrecht für Datenbankhersteller, das es nur innerhalb der EU gibt, Anwendung finden kann. Es bleibt abzuwarten, ob hier eine gesetzgeberische Klärung erfolgt oder ob die Gerichte über diese Fragen zu entscheiden haben.