Worte in den Mund gelegt

Wissenschaftlern gelingt erstmals "videorealistische" Manipulation von Videomaterial

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Wissenschaftler vom Massachusetts Institute of Technology in Boston haben die ersten so genannten videorealistischen Videos fabriziert, in denen Menschen Dinge sagen, die sie nie gesagt haben.

Die Frau spricht direkt in die Kamera. Sie deklamiert einen japanischen Songtext, ihre Lippen formen komplizierte Verse, Verse aus Worten, die sie nie in den Mund genommen hat. Was die Frau irgendwann einmal wirklich gesagt hat, das lässt sich nicht sehen. Japanisch war es zumindest nicht. Das Material wurde mithilfe einer neu entwickelten Software nachbearbeitet. Keiner der Testgucker merkte, dass es sich um ein synthetisches Demoband handelte.

Geforscht und entwickelt wird im Bereich der Facial animation, der Gesichtsanimation, im Prinzip schon seit 1971. Es begann mit der Interpolation von Einzelbildern, spezifischen Gesichtszügen und der Simulation der anatomischen Eigenschaften des menschlichen Gesichts. Mittlerweile können automatisch Animationssequenzen generiert werden, bestimmte detaillierte Ausdrücke und Phoneme - die Lippen bei der "Stimmausgabe" liegen dann schon vordefiniert bereit. Ein Wort wird als eine Sequenz von Phonemen aufgefasst. Zu den wichtigen Parametern bei der Beschreibung des Gesichtsausdrucks gehören die so genannten MPAs (Minimal Perceptible Action).

[phoneme ee [mpa open_jaw intensity 0.50] // Mundöffnung [mpa stretch_cornerlips intesity -0.29] // Lippenwinkel strecken [mpa raise_upperlips intensity -0.20] // Oberlippen anheben] Beispiel für das Phonem "ee"1

Tony Ezzet vom Center for biological and computational learning aus der Gruppe von Tomaso Poggio, Forscher im Artificial Intelligence Laboratory am MIT hat es nun, wie der Boston Globe berichtet, erstmals geschafft, die Lippenbewegungen so zu perfektionieren, dass von einem videorealistischen Effekt gesprochen werden kann. Die neue Software ist außerdem so weit automatisiert, dass keine Korrekturen anfallen. Erst nach einer Weile spürt der Betrachter, dass das der Kamera zugewandte Gesicht etwas leierig und leblos aussieht.

Der Trick? Künstliche Intelligenz: Die Maschine guckt, wer da spricht und merkt sich die Einzelheiten. Dann lässt sie sprechen. Mehr darüber gibt es leider erst im Juli, wenn die Wissenschaftler ihr Paper auf der Siggraph vorstellen. Einstweilen vergnügen sie sich damit, eine News-Sendung zu dubben, das heißt die Lippenbewegungen des Anchorman (in dem Fall sollte es Ted Koppel von ABC's "Nightline" sein) werden vom Englischen ins Spanische übersetzt. Auch soll die Software so optimiert werden, dass sie bei Menschen funktioniert, die nicht direkt in die Kamera sehen, sondern zappeln oder tanzen.

"Das ist wirklich bahnbrechende Arbeit", zitiert der Boston Globe einen angesehenen New Yorker Informatikprofessor, "aber wir gehen auf Kollisionskurs mit der Ethik. Wenn man Menschen etwas sagen lassen kann, das sie niemals gesagt haben, dann kann jeden Moment die Hölle losgehen."

Armer Usama bin Ladin. Welche Scheußlichkeiten wird man ihm bald in den vom Fusselbart umrahmten Mund legen?