"All Tomorrow’s Parties": KI-Synthese – Ende des Copyrights, wie wir es kannten
KI-Systeme zur Bild- und Klangsynthese sind stochastische, interpolationsfähige Bibliotheken. Sie erfordern eine radikale Neuorientierung des Urheberrechts.
- René Walter
(This article also exists in English.)
Im Zeitalter des Machine Learning stehen unsere Vorstellungen von geistigem Eigentum und Urheberrechten vor einem radikalen Umbruch. Erste Klagen gegen KI-Unternehmen, die generative KI-Systeme anbieten, werfen die Frage auf, was Kunst und Kreativität genau sind und warum (auch auf welche Weise) wir sie schützen sowie fördern sollten.
Mitte Januar 2023 leitete der Stockfoto-Anbieter Getty Images in Großbritannien erste juristische Schritte gegen Stability AI ein, Anfang Februar schließlich ebenfalls in den USA. Zuvor hatten drei Künstlerinnen eine Klage eingereicht, in der sie das Unternehmen bezichtigten, mit Stable Diffusion gegen ihre Urheberrechte zu verstoßen (Grundlage bietet etwa die Studie "Extracting Training Data from Diffusion Models", die MIT Technology Review hatte berichtet). Verlage fordern in ersten Reaktionen auf ChatGPT eine Erweiterung des Leistungsschutzrechts auf generative KI-Systeme.
Verwertungsgesellschaften wie GEMA oder VG Wort, die die Urheberrechte ihrer Mitglieder verwalten, stehen vor einer gewaltigen Aufgabe. Ihre Ausschüttungsmechanismen werden durch diese neuartigen Systeme zum potenziellen Spielball für Betrüger, die sie mit einer leicht zu bedienende Software täuschen und Ausschüttungen zu eigenen Gunsten in die Höhe treiben können: mit KI-generierten Inhalten, die bestehende Systeme zu sprengen vermögen – durch die automatisierte Mediensynthese plausibler, aber nicht realer Texte, Bilder und Audiodaten.
Stochastische Pralinenschachtel
Alison Gopnik, Professorin für Psychologie und Philosophie in Berkeley, bezeichnet die neuen generativen KI-Modelle als bibliotheksartige kulturelle Technologien, die Zugang zu Wissen bereitstellen und dieses vervielfältigen. Der Vergleich ist naheliegend, wenn auch ungenau, und ich würde die von Algorithmen berechneten interpolierbaren Datenräume, die sogenannten Latent Spaces, davon ausgehend als "stochastische Bibliotheken" bezeichnen: eine Bücherei, in der man einem Roboter-Bibliothekar beschreibt, welches Buch man haben möchte und der dann ein ungefähr passendes heraussucht. Anders formuliert: "KI ist wie eine Schachtel Pralinen – man weiß nie, was man bekommt."
Stochastische Bibliotheken sind interpolationsfähige Datenbanken ihrer Trainingsdaten: KI-Systeme lernen durch Mustererkennung verschiedene Charakteristika des Inputs und speichern diese als sogenannte Weights, die man über Parameter ansteuern kann. Im Falle von Stable Diffusion sind das 870 Millionen Parameter, bei ChatGPT gleich 175 Milliarden davon. Erstellt man etwa ein KI-Modell für Bilder von Pablo Picasso, so speichert das Neural Network die in den Trainingsdaten erkannten Muster für Stilistiken in Pinselstrich, Farbgebung oder Proportionen.
Diese kann ich wiederum über den Text-Prompt ansteuern und wer nun in der Picasso-KI ein Bild im Stil des Meisters erstellen möchte, aktiviert die Parameter für "Vase", "Blumen", "Obst" und "Picasso" und das Modell erzeugt ein Stillleben anhand der Weights dieser Muster in seiner Datenbank. Das Gleiche geschieht in ChatGPT, wenn ich einen heise-Text im Stil eines Ramones-Songs remixe. Genau dieses molekulare, interpolationsfähige Remix-Prinzip generativer KI erzeugt eine gewaltige Sprengkraft für die bestehenden Systeme des Urheberrechts.
Interpolativer Charakter der KI-Modelle
Durch die Natur der Prompt-Eingabe, die ihren Input in verschiedene Token zerlegt, also in Silben und Gruppen von Buchstaben, kommen bei jeder Bilderzeugung viele dieser Weights und Parameter zusammen. Auch deshalb sprechen die Anwälte der Künstler von "Collage-Werkzeugen des 21. Jahrhunderts". Diese Wortwahl allerdings verbaut den Blick auf den interpolativen Charakter der Modelle: Jedes Bild wird anhand vieler unterschiedlicher Parameter erzeugt, die zuvor im KI-Training aus millionenfachen Bildanalysen gewonnen wurden.
Jedes synthetische Bild, die KI-Musik oder der generative Text sind immer das Ergebnis einer multidimensionalen Interpolation des Latent Space, in der man aus den Parametern "Roboter", "Hund", "Wiese", "Picasso" und "Blumen" einen fünfdimensionalen Raum voller möglicher Bildsynthesen erzeugt, aus dem Synthetisierungen nach Zufallsprinzip (bei Diffusionsmodellen) oder nach einem Belohnungs-Algorithmus ausgewählt werden. So kann ich durch den Text-Prompt jedes in der Datenbank enthaltene Muster mit anderen Mustern zu neuartigen Remixen verbinden, und so malt unser KI-Picasso auf einmal Roboter und Raumschiffe, wie er es im echten Leben nie getan hat.
Diese Interpolationsfähigkeit zwischen Datenpunkten stellt nicht nur das Urheberrecht vor bislang unbekannte Probleme: Aktuell sorgen synthetisch generierte KI-Stimmen für Unmut bei Synchronsprecherinnen und -sprechern, die in ihren Verträgen jüngst Klauseln finden, die Nutzungsrechte an ihren Stimmdaten zum Training von synthetischen Stimmen fordern. Gewerkschaften raten dazu, solche Verträge nicht zu unterschreiben, aber es ist nur eine Frage der Zeit, bis Filmproduzenten jede erdenkliche Stimme in jeder denkbaren Tonalität erzeugen können, rein durch Interpolation zwischen den einzelnen gelernten Mustern im Datensatz. Der neue Bösewicht des Marvel-Universums soll klingen wie Ted Brolin, aber in der Sprachfärbung von Bruce Willis und der Rhythmik von Pee Wee Herman? KI macht's möglich.
Die Trainingsdaten der generativen künstlichen Intelligenzen, die oftmals urheberrechtlich geschützte Werke enthalten, werden so zu Parameterbanken für "neue", synthetische Outputs umfunktioniert. Der bekannte Science-Fiction-Autor Ted Chiang, dessen Kurzgeschichte "The Story of Your Life" die Vorlage zu Denis Villeneuves Film "Arrival" lieferte, verglich Large Language Models im Magazin New Yorker mit der verlustreichen Datenkompression von JPGs – eine Metapher, die angesichts der Auflösung von Kultur im atomisierten Grey Goo des Latent Space durchaus angemessen erscheint.
Was wird aus dem Copyright?
Die Zufälligkeit einer stochastischen Bibliothek und der interpolative Charakter von KI-Synthese widersprechen grundsätzlich den Prinzipien US-amerikanischer und europäischer Urheberrechte, die individuelle, identifizierbare Werke von natürlichen Personen und eine gewisse Schöpfungshöhe voraussetzen, um tätig zu werden. Wie solche Kopierrechte auf einen interpolierfähigen Latent Space reagieren sollen, in dem ich Muster bestehender Werke auf kreativ-molekularer Ebene miteinander frei verbinden kann, ist völlig unklar und es kommt, wie ein Jurist sagen würde, "auf den Einzelfall an".
Jedoch haben zwei Studien gezeigt, dass Diffusionsmodelle in der Lage sind, die die zu ihrem Training verwendeten Bilddaten exakt zu reproduzieren (arXiv-Preprints: "Investigating Data Replication in Diffusion Models" und "Extracting Training Data from Diffusion Models"), was einerseits Urheberrechtsverletzungen ermöglicht und andererseits zu Verletzungen der Privatsphäre führen kann.
Erschwerend hinzu kommt die kommerzielle Verwertung dieser KI-Systeme. Sie entstanden zwar in einem wissenschaftlichen Rahmen und können sich daher zumindest während ihrer Entwicklung auf Ausnahmen in Schutzrechten in Europa und den USA berufen. Diese Ausnahmen unterliegen jedoch bei kommerziellen Anwendungen höheren rechtlichen Anforderungen, und sowohl Stability AI als auch OpenAI und Microsoft haben ihre KI-Systeme bereits auf den Markt gebracht. Auch deshalb ermittelt die Federal Trade Commission nun gegen OpenAI aufgrund verletzter Sorgfaltspflichten während der Markteinführung von ChatGPT.
Endlose Mash-ups atomisierter Kultur
Verwertungsgesellschaften von Urheberinnen und Urhebern haben bislang keinerlei Ansätze, um diesen endlosen stochastischen Mash-ups generativer KI-Systeme auf Basis atomisierter Kultur zu begegnen. Selbst wenn Urheber und Rechteverwalter in einer Reform des Urheberrechts Wege zur Regulierung der stochastischen Natur dieser neuartigen Kultur-Synthesizer finden, werden Schwarzmärkte für Modelle existieren, die Nutzern die freie Erkundung der neuen synthetischen Welten ermöglichen. Bereits jetzt gibt es Hunderte von Checkpoints (CKPTs) für Stable Diffusion, also derivative KI-Modelle, die auf den Stil bestimmter Künstler oder gleich auf ganze Ästhetiken trainiert wurden.
So gibt es sogar ein Stable-Diffusion-Modell für den Film "Cats". Auch ist es heute bereits möglich, einen eigenen Bildgenerator auf Basis von Stable Diffusion zu bauen, in dem man mit verschiedenen Checkpoint-Files neue Bildwelten mischen kann wie Zutaten beim Kochen: "Einmal spezialisierten CKPT mit Cats, Star Trek und Ghibli bitte", und heraus kommt ein gigantischer Latent Space, der auf Anime-Katzen vom Planeten Vulkan spezialisiert ist und unendliche Bildwelten garantiert. Noch weiter in die Zukunft gedacht, erscheinen Brain-Computer-Interfaces am Horizont, die eine Echtzeitvisualisierung von Gedanken ermöglichen – digital ermöglichte Klarträume im Wachzustand. Der Gedanke daran, dass Disney Gedanken zumindest im visualisierten Output kontrolliert, liegt nicht fern: "I can't show that, Dave."