Demaskierte KI: "Fake-Face"-Generatoren verraten Ausgangsbilder

Forscher stellen die weit verbreitete Theorie in Frage, dass Deep-Learning-Modelle "Black Boxes" sind, die nichts über ihre Vorgänge im Inneren verraten.

In Pocket speichern vorlesen Druckansicht 84 Kommentare lesen

(Bild: Ms Tech | Pexels, thispersondoesnotexist.com)

Lesezeit: 7 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Wer die Website "This Person Does Not Exist" aufruft, kann an einem spannenden Experiment teilnehmen: Sie zeigt ein menschliches Gesicht, das nahezu perfekt realistisch ist – und doch völlig unecht. Aktualisiert man die Seite, generiert das dahinterliegende neuronale Netzwerk ein weiteres – und noch eins und noch eins. Die endlose Abfolge von KI-generierten Gesichtern wird von einem Generative Adversarial Networks (GAN) erzeugt – einer Art von Künstlicher Intelligenz, die lernt, realistische, aber tatsächlich falsche Varianten jener Daten zu erzeugen, auf die sie trainiert wurde.

Aber solche generierten Gesichter – die bereits in CGI-Filmen und in der Werbung verwendet werden – sind möglicherweise nicht so einzigartig, wie sie scheinen. In einer neuen Untersuchung mit dem Titel "This Person (Probably) Exists" zeigen Forscher nun, dass viele von GANs erzeugte Gesichter eine verblüffende Ähnlichkeit mit tatsächlichen Personen aufweisen, die in den Trainingsdaten vorkommen. Die gefälschten Gesichter könnten die echten Gesichter, auf die das GAN trainiert wurde, erstaunlich leicht demaskieren – wodurch die Identität dieser Personen aufgedeckt werden kann. Die Arbeit ist nur eine in einer ganzen Reihe von Studien, die die verbreitete Vorstellung in Frage stellen, dass neuronale Netze "Black Boxes" sind, die nichts über die Vorgänge in ihrem Inneren verraten.

Um die versteckten Trainingsdaten zu entlarven, verwendeten Ryan Webster und seine Kollegen von der Universität Caen in der Normandie in Frankreich eine bestimmte Art von Angriff, der als "Membership Attack" bezeichnet wird und mit dem sich herausfinden lässt, ob bestimmte Daten zum Trainieren eines neuronalen Netzwerkmodells verwendet wurden. Diese Angriffe nutzen in der Regel subtile Unterschiede zwischen der Art und Weise, wie ein Modell mit Daten umgeht, auf die es trainiert wurde – und die es daher schon Tausende Male gesehen hat – sowie mit bislang unbekannten Daten.

So kann ein Modell beispielsweise ein bisher unbekanntes Bild zwar genau, aber mit etwas geringerer Sicherheit erkennen als ein Bild, mit dem es trainiert wurde. Ein zweites Angreifer-Modell kann lernen, solche Unterschiede im Verhalten des ersten Modells zu erkennen, und sie nutzen, um vorherzusagen, ob bestimmte Daten, z. B. ein Foto, im Trainingssatz enthalten sind oder nicht.

Solche Angriffe können zu ernsthaften Sicherheitslücken führen. Wenn man zum Beispiel herausfindet, dass die medizinischen Daten einer Person zum Trainieren eines Modells verwendet wurden, das mit Krankheiten in Verbindung steht, könnte man herausfinden, dass diese Person diese Krankheit hat.

Websters Team erweiterte diese Idee dahingehend, dass sie nicht die genauen Fotos identifizierten, die zum Trainieren eines GAN verwendet wurden, sondern Fotos im Trainingssatz des GAN, die nicht identisch waren, aber dieselbe Person darzustellen schienen – mit anderen Worten: Gesichter mit derselben Identität. Zu diesem Zweck generierten die Forscher zunächst Gesichter mit dem GAN und verwendeten dann eine separate KI zur Gesichtserkennung, um zu erkennen, ob die Identität dieser generierten Gesichter mit der Identität eines der Gesichter in den Trainingsdaten übereinstimmte.

Die Ergebnisse sind verblüffend. In vielen Fällen fand das Team in den Trainingsdaten mehrere Fotos echter Personen, die mit den vom GAN erzeugten falschen Gesichtern übereinstimmten, wodurch die Identität der Personen aufgedeckt wurde, auf die die KI trainiert worden war. Die Arbeit gibt Anlass zu ernsthaften Bedenken hinsichtlich des Datenschutzes. "Die KI-Community empfindet ein trügerisches Gefühl der Sicherheit, wenn sie trainierte tiefe neuronale Netzwerkmodelle an andere weitergibt", sagt Jan Kautz, Vizepräsident für Lern- und Wahrnehmungsforschung bei Nvidia.

Theoretisch könnte diese Art von Angriff auch auf andere personenbezogene Daten – etwa biometrische oder medizinische – angewendet werden. Andererseits weist Webster darauf hin, dass die Technik auch von Menschen genutzt werden könnte, um zu überprüfen, ob ihre Daten ohne ihre Zustimmung zum Training einer KI verwendet wurden. Ein Künstler könnte etwa auch checken, ob sein Werk zum Trainieren eines GAN in einem kommerziellen Tool verwendet wurde, sagt der Forscher: "Man könnte eine Methode wie die unsere zum Nachweis von Urheberrechtsverletzungen verwenden."

Das Verfahren könnte weiterhin verwendet werden, um sicherzustellen, dass GANs nicht von vorne herein private Daten preisgeben. Das GAN könnte mit der gleichen Technik, die von den Forschern entwickelt wurde, selbst überprüfen, ob seine Kreationen echten Beispielen in seinen Trainingsdaten ähneln, bevor es diese wirklich freigibt. Dies setzt jedoch voraus, dass man überhaupt an die Trainingsdaten herankommt, sagt Kautz. Er und seine Kollegen bei Nvidia haben einen anderen Weg gefunden, um private Daten, einschließlich Bildern von Gesichtern und anderen sensiblen Objekten – wie medizinischen Daten – freizugeben, bei dem überhaupt kein Zugang zu Trainingsdaten notwendig ist.

Stattdessen haben sie einen Algorithmus entwickelt, der die Daten, denen ein trainiertes Modell ausgesetzt war, durch Umkehrung der Schritte, die das Modell bei der Verarbeitung dieser Daten durchläuft, wiederherstellen kann. Nehmen wir ein trainiertes Bilderkennungsnetzwerk: Um zu erkennen, was auf einem Bild zu sehen ist, durchläuft das Netzwerk eine Reihe von Schichten künstlicher Neuronen, wobei jede Schicht verschiedene Ebenen von Informationen extrahiert, von abstrakten Kanten über Formen bis hin zu erkennbaren Merkmalen.

Kautz' Team fand heraus, dass sie das Modell bei der Hälfte dieser Schritte unterbrechen und seine Richtung umkehren können, um das Eingangsbild aus den internen Daten des Modells neu zu erstellen. Sie testeten diese Technik an einer Reihe von gängigen Bilderkennungsmodellen und GANs. In einem Test zeigten sie, dass sie Bilder aus ImageNet, einem der bekanntesten Bilderkennungsdatensätze, genau nachbilden konnten. Wie die Arbeit von Webster ähneln die nachgebildeten Bilder sehr stark echten Bildern. "Wir waren von der Endqualität überrascht", sagt Kautz.

Die Forscher glauben, dass diese Art von Angriff nicht nur hypothetisch ist. In Smartphones und anderen mobilen Geräten wird zunehmend KI eingesetzt. Aufgrund von Akku- und Speicherbeschränkungen werden die Modelle manchmal nur zur Hälfte auf dem Gerät selbst verarbeitet und für die endgültige Berechnung in die Cloud geschickt – ein Ansatz, der als "Split Computing" bekannt ist. Die meisten Forscher gehen davon aus, dass beim Split Computing keine privaten Daten aus dem Telefon einer Person preisgegeben werden, da nur das Modell gemeinsam genutzt wird, sagt Kautz. Sein Angriff zeigt jedoch, dass dies wohl nicht der Fall ist.

Kautz und seine Kollegen arbeiten nun daran, Wege zu finden, um zu verhindern, dass KI-Modelle private Daten preisgeben. "Wir wollten die Risiken verstehen, damit wir Schwachstellen minimieren können", sagt er. Obwohl beide Gruppen sehr unterschiedliche Techniken verwenden, ist er der Meinung, dass sich seine Arbeit und die von Webster gut ergänzen. Websters Team hat gezeigt, dass private Daten in der Ausgabe eines Modells gefunden werden können; Kautz' Team hat gezeigt, dass private Daten aufgedeckt werden können, indem man den umgekehrten Weg geht und die Eingangsdaten neu erstellt. "Die Untersuchung in beide Richtungen ist wichtig, um ein besseres Verständnis dafür zu entwickeln, wie man solche Angriffe verhindern kann", sagt Kautz.

(bsc)