Nightshade: KI-Modelle vergiften, eigene Werke schützen

Mit Nightshade lassen sich die Trainingsdaten großer KI-Modelle vergiften. Sie machen beispielsweise aus einer Katze einen Hund.

In Pocket speichern vorlesen Druckansicht 392 Kommentare lesen
Gift in einer Flasche mit Zettel, auf dem ein Totenkopf gemalt ist

(Bild: busliq/Shutterstock.com)

Lesezeit: 3 Min.

KI-Systeme wie Bildgeneratoren sind mit frei zugänglichem Material aus dem Internet trainiert worden. Viele Künstler sehen dadurch ihr Urheberrecht verletzt. Nun gibt es ein Tool, mit dem sie sich nicht nur abschotten, sondern sogar den KI-Modellen schaden können. Nightshade verändert Werke so, dass es für das menschliche Auge nicht zu erkennen ist. In den Trainingsdaten wird dadurch aber aus einer Katze potenziell ein Hund oder aus einer Kuh ein Portemonnaie.

Vorgestellt wurde Nightshade bereits im vergangenen Herbst, nun ist das Werkzeug auch tatsächlich verfügbar. Entwickelt wurde es an der Universität von Chicago. Die Wissenschaftler haben bereits ein ähnliches Tool namens Glaze im Angebot. Wobei der Vorgänger darauf abzielt, dass Künstler ihre Werke schützen können. Konkret, in dem sie ihre Bilder so verfälschen, dass KI-Modelle nicht in der Lage sind, ihren Stil zu lernen oder gar wiederzugeben. Dafür werden Pixel verändert – für das menschliche Auge unsichtbar, für die Maschine entsteht jedoch etwas Anderes. Die Entwickler sehen es als gegeben, dass sich KI-Anbieter teilweise darüber hinwegsetzen, wenn es um Opt-Out-Listen und Hinweise geht, dass Inhalte nicht für das Training genutzt werden dürfen.

Nightshade soll das ganze etwas weitertreiben. Nutzt man dieses Tool, und kommen die Crawler trotz Verbot an den eigenen Werken vorbei, werden die Trainingsdaten vergiftet. Zeigt das Bild nämlich ein Portemonnaie statt einer Kuh und ist dennoch als Kuh ausgezeichnet, lernt das Modell, Portemonnaies zu zeigen, wenn jemand per Prompt eigentlich eine Kuh sehen will. Das gesamte KI-Modell kann dadurch Schaden nehmen – für alle Nutzer. In Tests mit einer eigenen Version vom Bildgenerator Stable Difussion reichten 50 vergiftete Bilder aus, dass Hunde begannen komisch auszusehen, 300 manipulierte Bilder später waren aus Hunden Katzen geworden. Um ein großes Modell zu schädigen, bedarf es laut der Entwickler deutlich mehr vergifteter Materialien.

Damit ist Nightshade also eine Erweiterung von Glaze. Künstler können freilich selbst entscheiden, ob sie beide Tools einsetzen wollen oder nur eines der beiden. Wobei der gemeinsame Einsatz eine faire Chance für Anbieter von KI-Modellen darstellt, die sich zunächst an das Verbot halten können – und die Bilder nicht in das Training fließen lassen können. Erst nach dem Bruch würde dann die Vergiftung starten. Ob beide Tools zusammen funktionieren, wird allerdings erst noch getestet. Nightshade soll dann eine Erweiterung von Webglaze werden, also der Webversion von Glaze.

Nightshade soll auch als Open-Source zur Verfügung gestellt werden. Dann können freilich auch andere Menschen in anderen Settings versuchen, damit den KI-Anbietern zu schaden. Um die Software nutzen zu können, muss man sie zunächst installieren. Dafür, so heißt es in einer Erklärung, müssen einige Machine-Learning-Bibliotheken und vortrainierte Modelle heruntergeladen werden. Grundsätzlich gibt es einige Bedingungen an die Hardware. Aktuell scheint es zu sehr langen Ladezeiten zu kommen.

(emw)