KI spuckt Bilder echter Menschen und urheberrechtlich geschützte Inhalte aus

Eine neue Studie zeigt, dass KI-Bildgeneratoren offenbar weniger kreativ sind als angenommen. Das könnte Klagen durch Rechteinhaber befördern.

68

"robot painter tries to imitate art, highly detailed, dramatic"

(Bild: DALL-E / OpenAI)

07.02.2023, 10:48 Uhr

Lesezeit: 6 Min.

MIT Technology Review

Von

Melissa Heikkilä

Die derzeit so beliebten Bildgeneratoren spucken, wenn man sie richtig bedient, auch identifizierbare Fotos von echten Menschen aus. Außerdem gelingt es, exakte Kopien urheberrechtlich geschützter Werke zu erstellen. Das haben Forscher der Alphabet-Töchter Google und DeepMind, der University of California in Berkeley, der ETH Zürich sowie der Princeton University herausgefunden. Die Studie deutet auf rechtliche Probleme hin – nicht nur beim Schutz der Privatsphäre, sondern auch beim Copyright von Künstlern und Unternehmen, das DALL-E, Midjourney, Stable Diffusion und Co. brechen könnten. Erste Klagen zum letzteren Punkt laufen schon.

Die Wissenschaftler erhielten ihre Ergebnisse, indem sie Stable Diffusion und Googles hauseigenen Bildgenerator Imagen einen Prompt mit Bildunterschriften – wie z. B. dem Namen einer Person – vorlegten. Dann analysierten sie, ob eines der erzeugten Bilder mit den Originalbildern in der Datenbank des Modells übereinstimmte. Der Gruppe gelang es, über 100 Nachahmungen von Bildern aus dem Trainingssatz der KI zu extrahieren.

Videos by heise

Die bildgenerierenden KI-Modelle werden mit riesigen Datensätzen trainiert, die aus Bildern mit passenden Textbeschreibungen bestehen, die aus dem Internet zusammengetragen wurden. Bei der neuesten Generation dieser Systeme wird ein Bild aus dem Datensatz genommen und ein Pixel nach dem anderen so verändert, bis das ursprüngliche Bild nur noch eine Ansammlung von zufälligen Bildpunkten ist. Das KI-Modell kehrt dann den Prozess um und macht aus dem verpixelten Chaos ein neues Bild.

Lesen Sie auch

Bard: Googles Antwort auf OpenAIs Chatbot ChatGPT

Auswirkungen für mögliche KI-Modelle im Gesundheitswesen

Mit ihrer neuen Arbeit sei es der Gruppe zum ersten Mal gelungen, nachzuweisen, dass sich diese KI-Modelle wirklich die Bilder in ihren Trainingsdatensätzen einprägen, meint Ryan Webster, Doktorand an der Universität Caen in der Normandie in Frankreich, der im Bereich Datenschutz bei Modellen zur Bilderzeugung arbeitet und die Studie kennt. Dies könnte beispielsweise Auswirkungen auf Start-ups haben, die generative KI-Modelle im Gesundheitswesen einsetzen wollen, denn es zeigt, dass bei diesen Systemen das Risiko besteht, dass sensible private Informationen durchsickern. DALL-E-Macherin OpenAI, Google und Stability AI, die Firma hinter Stable Diffusion, kommentierten die Studie zunächst nicht.

Eric Wallace, Doktorand an der UC Berkeley, der Teil der Forschergruppe war, sagt, dass sie hofften, dass nun die Alarmglocken läuteten, bevor diese KI-Modelle in sensiblen Bereichen wie der Medizin auf breiter Front eingesetzt werden. "Viele Leute sind versucht, diese Art von generativen Ansätzen auf sensible Daten anzuwenden. Unsere Arbeit ist definitiv ein warnendes Beispiel dafür, dass das wahrscheinlich eine schlechte Idee ist – es sei denn, es werden extreme Sicherheitsvorkehrungen getroffen, um [Datenschutzverletzungen] zu verhindern", sagt er.

Das Ausmaß, in dem sich diese KI-Modelle Bilder aus ihren Datenbanken merken und dann "wiederkäuen", ist auch der Grund für eine aktuell große Fehde zwischen KI-Unternehmen und Künstlern beziehungsweise Rechteinhabern. Stability AI sieht sich mit zwei Klagen einer Gruppe von Künstlern und der Fotodatenbank Getty Images konfrontiert, die argumentieren, dass das Unternehmen ihr urheberrechtlich geschütztes Material unrechtmäßig abgreife und verarbeite.

Klage von Rechteinhabern

Die Ergebnisse der Forscher könnten den Rechteinhabern, die KI-Unternehmen Urheberrechtsverletzungen vorwerfen, den Rücken stärken. Wenn Künstler, deren Werke für das Training von Stable Diffusion verwendet wurden, nachweisen können, dass das Modell ihre Werke ohne Genehmigung kopiert hat, muss das Unternehmen sie möglicherweise entschädigen.

Lesen Sie auch

Wie sich Künstler gegen die Nutzung ihrer Bilder als KI-Vorlagen wehren

Die Studie komme zur rechten Zeit und sei wichtig, sagt Sameer Singh, außerordentlicher Professor für Informatik an der University of California, Irvine. "Es ist wichtig, die Öffentlichkeit zu sensibilisieren und Diskussionen über die Sicherheit und den Datenschutz bei diesen großen Modellen anzustoßen", fügt er hinzu.

Die Arbeit zeigt, dass es praktisch möglich ist, herauszufinden, ob KI-Modelle Bilder kopiert haben – und auch zu messen, in welchem Ausmaß dies geschehen ist. Das sei beides auf lange Sicht sehr wertvoll, so Singh. Stable Diffusion ist quelloffen, das heißt, jeder kann das Modell analysieren und untersuchen. Imagen ist hingegen geschlossen, doch Google hat den Forschern für ihre Studie Zugriff gewährt. Singh sagt, dass die Studie ein zentrales Beispiel dafür ist, wie wichtig es ist, der Forschung Zugang zu diesen Modellen zu gewähren, um sie zu analysieren. Er fordert, dass auch andere Anbieter wie OpenAI ähnlich transparent sein sollten. Das gilt insbesondere auch für Sprachmodelle wie ChatGPT.

Beeindruckende Ergebnisse - unter bestimmten Bedingungen

So beeindruckend die Ergebnisse der Forschergruppe auch sind, es gibt auch Vorbehalte. So kamen die Bilder, die die Forscher extrahieren konnten, jeweils mehrfach in den Trainingsdaten vor und waren im Vergleich zu anderen Bildern im Datensatz eher ungewöhnlich, wie Florian Tramèr, beteiligter Wissenschaftler und Assistenzprofessor für Informatik an der ETH Zürich, einräumt.

Das heißt: Menschen, die ungewöhnlich aussehen oder ungewöhnliche Namen haben, haben ein höheres Risiko, dass sich das KI-Modell sie sich "einprägt". Und die Forscher konnten nur relativ wenige exakte Kopien der Fotos von Personen aus dem KI-Modell extrahieren: Nur eines von einer Million Bildern war eine Kopie, so KI-Datenschutzexperte Webster.

Bei der Menge an Trainingsdaten ist das trotzdem besorgniserregend. "Ich hoffe wirklich, dass sich niemand diese Ergebnisse ansieht und sagt: Oh, eigentlich sind diese Zahlen gar nicht so schlecht, wenn es nur eins von einer Million ist", sagt Tramèr. Die Tatsache, dass die Chance größer als Null ist, sei das, was zählt.