Fake Speech: KI hilft beim Ändern von Lippenbewegungen

Wissenschaftler demonstrieren eine Technik, mit der Lippenbewegungen anhand von Audiodateien nachgestellt werden können. Ein Video zeigt, wie Barack Obama Wörter in den Mund gelegt werden.

53

(Bild: dpa, Wang Zhao)

13.07.2017, 15:57 Uhr

Lesezeit: 1 Min.

Von

Daniel Herbig

Wissenschaftler der University of Washington haben ein Verfahren vorgestellt, mit dem Lippenbewegungen in einer Video-Aufzeichnung an einen alternativen Text angepasst werden können. So können Personen Wörter in den Mund gelegt werden, die sie an anderer Stelle geäußert haben, ohne dass es dem unbedarften Zuschauer auf Anhieb auffallen würde – zumindest in der Theorie.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

In einem Video demonstrieren die Forscher das Resultat: Barack Obama spricht in ein und derselben Videoaufnahme mal über die Krankenversicherung, mal über Terroranschläge, mal über seine Einstellung zur US-amerikanischen Vielfalt. Die Lippenbewegungen passen sich dem Gesagten so an, dass das Resultat zumindest auf den ersten Blick glaubhaft erscheint. Ganz lebensecht sind die Fake-Speech-Videos zwar noch nicht, bei flüchtigem Hingucken aber trotzdem überzeugend.

Augen und Ohren überlisten

Fake Speech: KI hilft beim Ändern von Lippenbewegungen

Ein LSTM-Netzwerk (Long short-term memory) wird zuerst mit Videomaterial gefüttert – für die Obama-Lippensynchronisierung waren es 14 Stunden. Es erlernt anhand der Aufzeichnungen die Mundbewegungen des Probanden. Algorithmen können dann aus einer Audiodatei plausible Lippenbewegungen formen und sie über die eigentlichen Gesichtsausdrücke einer Videoaufnahme legen.

In Zukunft ist den eigenen Augen also nur noch eingeschränkt zu glauben. Die Ohren sind ohnehin schon überlistet: Unternehmen wie Lyrebird haben eine Technik entwickelt, mit denen synthetische Stimmen ebenfalls anhand von Trainingsdaten erzeugt werden können – in Kombination könnten so komplette Fake-Reden erzeugt werden. (dahe)