PhotoGuard: Dieses neue Tool könnte Ihre Bilder vor KI-Manipulationen schützen
Das am MIT entwickelte PhotoGuard verändert Fotos auf eine Weise, die für uns nicht wahrnehmbar ist, aber KI-Systeme daran hindert, sie zu manipulieren.
- Melissa Heikkilä
Erinnern Sie sich an das Selfie, das Sie letzte Woche gepostet haben? Derzeit verhindert nichts, dass jemand es sich schnappt und mit Hilfe leistungsstarker generativer Künstlicher-Intelligenz-Systeme (KI) bearbeitet. Schlimmer noch: Dank der Raffinesse dieser Systeme könnte es unmöglich sein, zu beweisen, dass das resultierende Bild gefälscht ist.
Die gute Nachricht ist, dass ein von Forschern am Massachusetts Institute of Technology (MIT) entwickeltes Tool namens PhotoGuard (Code auf github veröffentlicht) genau das verhindern könnte. PhotoGuard funktioniert wie ein Schutzschild, indem es Fotos auf winzige Weise verändert, die für das menschliche Auge unsichtbar ist, damit aber verhindert, dass sie manipuliert werden. Das Ergebnis: Wenn jemand versucht, ein von PhotoGuard "immunisiertes" Bild mit einer Bearbeitungssoftware zu verändern, die auf einem generativen KI-Modell wie Stable Diffusion basiert, sieht das Ergebnis unrealistisch oder verzerrt aus.
"Im Moment kann jeder Fotos von uns nehmen, sie nach Belieben verändern, uns in sehr schlecht aussehende Situationen bringen und uns erpressen", sagt Hadi Salman, ein Doktorand am MIT, der an der Forschung mitgewirkt hat. Die Studie wurde Ende Juli auf der "International Conference on Machine Learning" vorgestellt.
Deepfake-Pornografie verhindern
PhotoGuard ist "ein Versuch, das Problem zu lösen, dass unsere Bilder von diesen Modellen böswillig manipuliert werden", sagt Salman. Das Tool könnte zum Beispiel verhindern, dass Selfies von Frauen ungewollt in Deepfake-Pornografie verwandelt werden.
Die Notwendigkeit, Wege zu finden, um KI-gestützte Manipulationen zu erkennen und zu stoppen, war noch nie so dringlich wie heute. Generative KI-Tools schaffen solche Veränderungen schneller und einfacher als je zuvor. In einer freiwilligen Selbstverpflichtung mit dem Weißen Haus haben sich führende KI-Unternehmen wie OpenAI, Google und Meta dazu verpflichtet, Methoden zu entwickeln, um Betrug und Täuschung zu verhindern.
PhotoGuard ergänzt eine dieser Techniken: das Wasserzeichen. Während das Wasserzeichen ähnliche unsichtbare Signale verwendet, um es Menschen zu ermöglichen, KI-generierte Inhalte zu erkennen, sobald sie erstellt wurden, soll Photoguard andere von vornherein davon abhalten, mit KI-Tools Bilder zu manipulieren.
Encoder- und Diffusionsangriff
Das MIT-Team setzte zwei verschiedene Techniken ein, um zu verhindern, dass Bilder mit dem Open-Source-Bilderzeugungsmodell Stable Diffusion bearbeitet werden. Die erste Technik ist ein so genannter Encoder-Angriff. PhotoGuard fügt dem Bild nicht wahrnehmbare Signale hinzu, sodass das KI-Modell es als etwas anderes interpretiert. Diese Signale könnten beispielsweise dazu führen, dass die KI ein Bild von, sagen wir, dem Entertainer Trevor Noah als einen Block aus reinem Grau kategorisiert. Infolgedessen würde jeder Versuch, Noah mithilfe von Stable Diffusion in andere Situationen zu bringen, nicht überzeugend wirken. Im Ergebnis enthält das resultierende Foto einen verwaschenen oder grauen Hintergrund (siehe Abbildung unten).
Die zweite Technik heißt Diffusionsangriff. Die Ergebnisse sind hierbei überzeugender, das heißt weniger nutzbar (siehe Abbildung unten). Er stört die Art und Weise, wie die KI-Modelle Bilder erzeugen, indem sie die Bilder mit geheimen Signalen kodieren, die die Verarbeitung durch das Modell verändern. Durch Hinzufügen dieser Signale zu einem Bild von Trevor Noah gelang es dem Team, das Diffusionsmodell so zu manipulieren, dass es die Eingabeaufforderung ignorierte und das von den Forschern gewünschte Bild erzeugte. Infolgedessen sahen alle von der KI bearbeiteten Bilder von Noah einfach nur grau aus.
Die Arbeit ist "eine gute Kombination aus einem konkreten Bedarf und dem, was man jetzt schon tun kann", sagt Ben Zhao, Informatikprofessor an der University of Chicago. Er hat eine ähnliche Schutzmethode namens Glaze entwickelt, mit der Künstler verhindern können, dass ihre Werke in KI-Modelle übernommen werden.
Bisher funktioniert es nur bei Stable Diffusion
Tools wie PhotoGuard verändern die wirtschaftlichen Bedingungen und Anreize für Angreifer, indem sie es ihnen erschweren, KI auf bösartige Weise zu nutzen, sagt Emily Wenger, Forschungswissenschaftlerin bei Meta, die auch an Glaze gearbeitet und Methoden zur Verhinderung von Gesichtserkennung entwickelt hat. "Je höher die Hürde ist, desto weniger Menschen sind bereit oder in der Lage, sie zu überwinden", sagt Wenger.
Eine Herausforderung wird sein, zu sehen, wie sich diese Technik auf andere Modelle übertragen lässt, sagt Zhao. Die Forscher haben eine Demo im Internet veröffentlicht, mit der Menschen ihre eigenen Fotos mittels "Encoder-Angriff" immunisieren können. Bisher funktioniert es allerdings nur bei Stable Diffusion zuverlässig.
PhotoGuard kann zudem zwar die Manipulation neuer Bilder erschweren, bietet aber keinen vollständigen Schutz vor Fälschungen. Alte, nicht immunisierte Bilder der Nutzer können immer noch missbraucht werden und es gibt andere Möglichkeiten, Fälschungen herzustellen, sagt Valeriia Cherepanova von der University of Maryland. Die Doktorandin hat Techniken entwickelt, mit denen sich Nutzer sozialer Medien vor Gesichtserkennung schützen können.
Theoretisch könnten die Menschen diesen Schutzschild auf ihre Bilder anwenden, bevor sie sie online hochladen, sagt Aleksander Madry vom MIT, der an der Forschung mitgewirkt hat. Es wäre jedoch viel effektiver, wenn Technologieunternehmen diesen Schutz automatisch zu den Bildern hinzufügen würden, die die Nutzer auf ihre Plattformen hochladen, fügt er hinzu.
Wettrüsten mit den Manipulatoren
Das Ganze ist ein Wettrüsten. Während Technologieunternehmen sich verpflichtet haben, die Schutzmethoden zu verbessern, entwickeln sie weiterhin in rasantem Tempo neue, bessere KI-Modelle, die in der Lage sein könnten, neue Schutzmaßnahmen zu umgehen. Das beste Szenario wäre, wenn die Unternehmen, die KI-Modelle entwickeln, auch eine Möglichkeit anbieten würden, ihre Bilder zu immunisieren, die mit jedem aktualisierten KI-Modell funktioniert, sagt Salman.
Der Versuch, Bilder an der Quelle vor KI-Manipulationen zu schützen, ist eine viel praktikablere Option als der Versuch, unzuverlässige Methoden zur Erkennung von KI-Manipulationen einzusetzen, sagt Henry Ajder, ein Experte für generative KI und Deepfakes.
Jede Social-Media-Plattform und jedes KI-Unternehmen "muss sich Gedanken darüber machen, wie man Nutzer davor schützen kann, dass sie zur Zielscheibe von [nicht-einvernehmlicher] Pornografie werden oder dass ihre Gesichter geklont werden, um diffamierende Inhalte zu erstellen", sagt er.
(jle)