Bildmanipulation für alle

Das goldene Zeitalter der Fake News hat gerade erst begonnen. Mithilfe von künstlicher Intelligenz wird es immer einfacher, Bilder und Videos zu manipulieren. Haben wir künftig noch eine Chance, die Wahrheit von der Lüge zu unterscheiden?

28.06.2017, 06:00 Uhr

Lesezeit: 12 Min.

MIT Technology Review

Von

Dr. Wolfgang Stieler

Auf den ersten Blick ist @smilevector ein ganz gewöhnlicher Twitter-Account. Da gibt es Fotos und kurze Videoschnipsel, die mehr oder weniger prominente Menschen zeigen. Sie schauen ernst oder lächelnd in die Kamera. All diese Bilder sind nicht echt. Sie sind Fälschungen. Erzeugt im Computer – im Dienst der Wissenschaft. Aber dabei wird es kaum bleiben.

Die Software, die Leinwandhelden genauso überzeugend zum Lächeln bringt wie längst verstorbene illustre Persönlichkeiten auf historischen Ölbildern, ist das Produkt von Tom White von der University of Wellington: ein künstliches neuronales Netz, das auf Knopfdruck komplette Resultate liefert, ohne dass der Fälscher mühsam Pixel für Pixel, Bildregion für Bildregion retuschieren muss. Noch ist die Auflösung der von Smilevector erzeugten Bilder auf 256 x 256 Pixel begrenzt, da das Verfahren viel Rechenzeit kostet. Doch White hat keinen Zweifel, dass seine oder ähnliche Software eines Tages gut genug sein wird, um selbst Profis hinters Licht zu führen.

TR 4/2017 — (Bild:
Technology Review 4/2017
)

Dieser Artikel stammt aus dem April-Heft von Technology Review. Weitere Texte dieser Ausgabe:

Thomas Gloe ist ein solcher Profi. An der TU Dresden hat er Verfahren der Multimedia-Forensik entwickelt. Mittlerweile sucht er für die dence GmbH in Bildern und Videos nach Spuren von Manipulationen – meist im Auftrag von Versicherungen. Er wähnt sich sicher. "Jede Kamera ist ein System, das die dreidimensionale Realität in ein zweidimensionales Bild überführt", sagt Gloe. "Das geht niemals perfekt. Denn selbst wenn ich zwei völlig gleiche Objekte filme, habe ich zum Beispiel Störungen durch Sensorrauschen und leichte Verzeichnungen durch das Objektiv – also eine Textur im Bild, die identische Objekte unterscheidbar macht." Ein Bildfälscher würde meist einzelne Bereiche doppelt verwenden, um andere Bereiche im Bild zu überdecken. "Wenn also Bereiche zu gut übereinstimmen, muss man genauer hinschauen."

Genau das hatten Gloe und seine Kollegen auch in der berühmten "Stinkefinger-Affäre" um den damaligen griechischen Finanzminister Yanis Varoufakis getan: Er hatte behauptet, ein YouTube-Video, in dem er den ausgestreckten Mittelfinger gezeigt hatte, sei gefälscht worden. "Wir hatten zwar nicht das Original, sondern nur die YouTube-Version, aber wir konnten mit ziemlicher Sicherheit eine Manipulation bei diesem Video ausschließen", sagt Gloe. Ganz anders dagegen bei einem kurz darauf vom TV-Satiriker Jan Böhmermann in Umlauf gebrachten Video, das angeblich die echte, unverfälschte Szene mit Varoufakis zeigte – diesmal ohne "Stinkefinger". "Das Video läuft erst ganz normal, ab einem bestimmten Zeitpunkt jedoch langsam rückwärts", erklärt Gloe. "Damit das nicht auffällt, hat man den Originalkopf einmontiert. Das konnten wir sehr gut zeigen."

Was Tom White und mit ihm diverse weitere Arbeitsgruppen jedoch derzeit tun, lässt solche verräterischen Spuren gar nicht erst entstehen. Sogenannte generative neuronale Netze erzeugen im Computer ein komplett neues Bild, das in sich völlig stimmig ist. Smilevector etwa kopiert nicht einfach nur einen lächelnden Mund über die entsprechende Bildregion. Das Programm stellt vielmehr sämtliche Gesichtsmuskeln, die sich während des Lächelns verändern, korrekt dar, produziert weiche Übergänge sowie konsistente Farb- und Beleuchtungsverhältnisse.

Im ersten Schritt wird das neuronale Netz mit vielen Beispielbildern von Gesichtern trainiert. Dabei lernt es selbstständig, welche Merkmale wichtig sind, um ähnliche Gesichter in einer Masse von Beispieldaten zu finden – also etwa das Gesicht einer jungen Frau oder eines alten Mannes. Das neuronale Netz destilliert die dafür nötigen Merkmale heraus und reduziert jedes Bild auf eine Liste von maximal 200 Zahlenwerten. White und Kollegen sprechen davon, dass das Bild durch einen Vektor mit 200 Dimensionen in einem "Latent Space" beschrieben wird. In diesem "verborgenen Raum" sind die Bildeigenschaften zwar gespeichert, aber nicht sichtbar.

"Das Schöne ist nun, dass dieser Latenzraum stark strukturiert ist", erklärt White. Entdeckt wurde das zuerst bei neuronalen Netzen, die Sprachrätsel lösen, indem sie einen fehlenden Begriff finden wie zum Beispiel: Männer und Frauen sind wie Könige und… Das Netz bildet aus den beiden Sätzen je einen Vektor und vergleicht diese Vektoren miteinander. Ihre Differenz ist der Vektor, der das Lösungswort repräsentiert: Königinnen.

Ganz ähnlich funktioniert das auch beim Lächeln: Zieht man bei vielen Beispielgesichtern die Vektoren eines ernsten Gesichtes von dem eines lächelnden Gesichtes ab, erhält man einen durchschnittlichen "Lächel-Vektor". Der kann zu einem beliebigen neuen Gesichtsvektor addiert werden, dann lächelt dieses Gesicht. Andrew Brock von der University of Edinburgh geht mit seinem "Neural Photo Editor" noch einen Schritt weiter: Die Software, die auf den ersten Blick aussieht wie ein einfaches Zeichenprogramm aus der Computer-Frühzeit, kann den Hautton oder die Gesichtsform eines Porträtfotos ändern, die Haarfarbe oder -länge anpassen und einen Bart ergänzen oder entfernen. Der User muss nur mit dem "Kontext-Pinsel" genannten Werkzeug zum Beispiel die gewünschte Farbe aufnehmen und anschließend in die Haarregion des Bildes klicken. Schon hat der Kopf dunklere Haare.