Aus Hund wird Katze: Tool Nightshade "vergiftet" Trainigsdaten von KI-Modellen

Das Tool Nightshade manipuliert Trainingsdaten, um Werke von Künstlern zu schützen. Das könnte aber der Entwicklung von KI-Bildgeneratoren schaden.

In Pocket speichern vorlesen Druckansicht 118 Kommentare lesen
Künstler bei der Arbeit

(Bild: wavebreakmedia / Shutterstock.com)

Lesezeit: 7 Min.
Von
  • Melissa Heikkilä
Inhaltsverzeichnis

Mit einem neuen Tool können Künstler für Menschen unsichtbare Änderungen an den Pixeln ihrer Kunstwerke vornehmen, bevor sie diese online hochladen. Gelangen diese dann als Trainingsdaten in ein bildgenerierendes Sprachmodell, kann dies dazu führen, dass das resultierende Modell auf chaotische und unvorhersehbare Weise gestört wird.

"Nightshade" heißt das Werkzeug, es zielt darauf, die Arbeiten von Künstlern zu schützen, wenn KI-Firmen diese Werke ohne Erlaubnis der Urheber zum Trainieren ihrer Modelle verwenden. Die Verwendung des Tools, um diese Trainingsdaten zu "vergiften", könnte zukünftigen Iterationen von bildgenerierenden KI-Modellen wie DALL-E, Midjourney und Stable Diffusion schaden, indem es einige ihrer Ergebnisse unbrauchbar macht: aus Hunden werden Katzen, aus Autos werden Kühe und so weiter. MIT Technology Review erhielt einen exklusiven Einblick in die Forschungsarbeit, die bei der Computersicherheitskonferenz Usenix zur Begutachtung eingereicht wurde.

Zum Hintergrund: Unternehmen wie OpenAI, Meta, Google und Stability AI sehen sich mit einer Reihe von Klagen von Künstlern konfrontiert, die behaupten, dass ihr urheberrechtlich geschütztes Material und ihre persönlichen Daten ohne Zustimmung oder Entschädigung aus dem Internet abgegriffen wurden. Ben Zhao, Professor an der University of Chicago und Leiter des Teams, das Machtgleichgewicht zwischen den KI-Unternehmen und den Künstlern wieder zurückzugeben, indem es eine wirksame Abschreckung gegen die Missachtung des Urheberrechts und des geistigen Eigentums der Künstler schafft. Meta, Google, Stability AI und OpenAI haben auf die Anfrage von MIT Technology Review, wie sie darauf reagieren könnten, nicht reagiert.

Aus Zhaos Team stammt auch Glaze, ein Tool, mit dem Künstler ihren persönlichen Stil "maskieren" können, um zu verhindern, dass er von KI-Unternehmen ausgeschlachtet wird. Es funktioniert ähnlich wie Nightshade: Es verändert die Pixel von Bildern auf eine subtile Weise, die für das menschliche Auge unsichtbar ist, aber maschinelle Lernmodelle so manipuliert, dass sie das Bild als etwas anderes interpretieren als das, was es tatsächlich zeigt.

Das Team hat vor, Nightshade in Glaze zu integrieren. So können die Künstler wählen, ob sie das Datenvergiftungswerkzeug verwenden wollen oder nicht. Ebenso soll das Werkzeug als Open Source zur Verfügung gestellt werden, so dass es andere User verwenden und ihre eigenen Varianten erstellen können. Je mehr Menschen es nutzen und ihre eigenen Versionen davon erstellen, desto leistungsfähiger wird das Tool, sagt Zhao. Die Datensätze für große KI-Modelle können aus Milliarden von Bildern bestehen. Je mehr vergiftete Bilder also in das Modell eingeschleust werden können, desto mehr Schaden kann die Technik anrichten.

Künstlerinnen und Künstler, die ihre Werke online hochladen möchten, aber nicht wollen, dass ihre Bilder von KI-Firmen gescraped werden, können sie in Glaze hochladen und mit einem anderen als ihrem eigenen Kunststil maskieren. Nightshade ist dann eine Möglichkeit davon. Wenn KI-Entwickler das Internet durchforsten, um mehr Daten zur Verbesserung ihrer KI-Modelle zu erhalten oder um ein neues zu erstellen, gelangen diese vergifteten Proben in den Datensatz des Modells und verursachen Fehlfunktionen.

Vergiftete Datenmuster können Modelle so manipulieren, dass sie zum Beispiel lernen, dass Bilder von Hüten Torten sind und Bilder von Handtaschen Toaster. Die vergifteten Daten lassen sich nur sehr schwer entfernen, da die Technikunternehmen jedes einzelne beschädigte Muster mühsam finden und löschen müssen.

Die Forscher testeten den Angriff an den neuesten Modellen von Stable Diffusion und an einem KI-Modell, das sie selbst von Grund auf trainiert hatten. Als sie Stable Diffusion mit nur 50 vergifteten Bildern von Hunden fütterten und es dann aufforderten, selbst Bilder von Hunden zu erstellen, begann die Ausgabe seltsam auszusehen – Kreaturen mit zu vielen Gliedmaßen und cartoonartigen Gesichtern. Mit 300 vergifteten Proben kann ein Angreifer Stable Diffusion so manipulieren, dass es Bilder von Hunden erzeugt, die wie Katzen aussehen.

Generative KI-Modelle sind hervorragend darin, Verbindungen zwischen Wörtern herzustellen, was die Verbreitung des "Giftes" fördert. Nightshade infiziert nicht nur das Wort "Hund", sondern alle ähnlichen Begriffe wie "Welpe", "Husky" und "Wolf". Der Giftangriff funktioniert auch bei entfernt verwandten Bildern. Wenn das Modell beispielsweise ein Nightshade-Bild für die Aufforderung "Fantasiekunst" scrapen würde, würden die Aufforderungen "Drache" und "eine Burg in Der Herr der Ringe" in ähnlicher Weise in etwas anderes verwandelt werden.

Zhao räumt ein, dass die Gefahr besteht, dass die Datenvergiftungstechnik für böswillige Zwecke missbraucht wird. Er sagt jedoch, dass Angreifer Tausende von Proben mit Nightshade bearbeiten müssten, um größeren, leistungsfähigeren Modellen echten Schaden zuzufügen, da diese auf Milliarden von Datenproben trainiert werden.

"Wir kennen noch keine robusten Verteidigungsmaßnahmen gegen diese Angriffe. Wir haben noch keine Vergiftungsangriffe auf moderne [maschinelle Lern-]Modelle in freier Wildbahn gesehen, aber das könnte nur eine Frage der Zeit sein", sagt Vitaly Shmatikov, Professor an der Cornell University, der sich mit der Sicherheit von KI-Modellen befasst und nicht an der Forschung beteiligt war. "Es ist jetzt an der Zeit, an der Verteidigung zu arbeiten", fügt Shmatikov hinzu.

Gautam Kamath, Assistenzprofessor an der University of Waterloo, der sich mit dem Datenschutz und der Robustheit von KI-Modellen befasst und nicht an der Studie beteiligt war, hält die Arbeit für "fantastisch".

"Die Studie zeigt, dass Schwachstellen bei diesen neuen Modellen nicht auf magische Weise verschwinden, sondern sogar noch gravierender werden", so Kamath. "Dies gilt umso mehr, je leistungsfähiger diese Modelle werden und je mehr Vertrauen die Menschen in sie setzen, denn mit der Zeit steht immer mehr auf dem Spiel."

Junfeng Yang, ein Informatikprofessor an der Columbia University, der sich mit der Sicherheit von Deep-Learning-Systemen befasst hat und nicht an der Arbeit beteiligt war, meint, dass Nightshade eine große Wirkung haben könnte, wenn es KI-Unternehmen dazu bringt, die Rechte von Künstlern stärker zu respektieren – zum Beispiel, indem sie eher bereit sind, Tantiemen zu zahlen.

KI-Unternehmen, die generative Text-Bild-Modelle entwickelt haben, wie zum Beispiel Stability AI und OpenAI, haben den Künstlern angeboten, ihre Bilder nicht für das Training zukünftiger Versionen der Modelle zu verwenden. Künstler sagen jedoch, dass dies nicht ausreicht. Eva Toorenent, eine Illustratorin und Künstlerin, die Glaze verwendet hat, sagt, dass die Opt-Out-Politik von den Künstlern verlangt, durch Reifen zu springen, und den Technologieunternehmen trotzdem die ganze Macht überlässt. Toorenent hofft, dass Nightshade den Status quo ändern wird.

"Es wird [KI-Unternehmen] dazu bringen, zweimal nachzudenken, weil sie die Möglichkeit haben, ihr gesamtes Modell zu zerstören, indem sie unsere Arbeit ohne unsere Zustimmung übernehmen", sagt sie.

Autumn Beverly, eine weitere Künstlerin, sagt, dass Tools wie Nightshade und Glaze ihr das Selbstvertrauen gegeben haben, ihre Arbeiten wieder online zu stellen. Sie hatte sie zuvor aus dem Internet entfernt, nachdem sie entdeckt hatte, dass sie ohne ihre Zustimmung in die beliebte Bilddatenbank LAION aufgenommen worden waren. "Ich bin wirklich dankbar, dass wir ein Werkzeug haben, das den Künstlern die Macht über ihre eigene Arbeit zurückgeben kann", sagt sie.

(jle)