Per Live-Stream: Mimik einer Person auf eine andere übertragen

Einer lacht, der andere auch und zeigt dabei die exakt gleiche Mimik. Ein neuer Algorithmus ermöglicht die täuschend echte Übertragung des Mienenspiels einer Person auf eine andere in einem Live-Video-Stream.

41

24.10.2015, 17:54 Uhr

Lesezeit: 2 Min.

iX Magazin

Von

Kersten Auel

Lachen, weinen, böse Blicke werfen – diese Gefühlsäußerungen lösen bei jedem Menschen ein individuelles Mienenspiel aus. Ein neuer Algorithmus soll es nun ermöglichen, die spezifische Mimik eines Menschen und seine Lippenbewegungen in Echtzeit auf das Video-Signal einer anderen Person zu übertragen. Während die Gesichtsbewegungen der Ausgangsperson präzise auf das der Zielperson abgebildet werden, bleiben deren Kopfbewegungen und Gestik unverändert. Ein photorealistisches Rendering soll es Zuschauern unmöglich machen, die Manipulation zu erkennen.

Ausgangsvideosignal und das Ergebnis — Per Algorithmus wird das Videoeingangssignal so berechnet, dass es als Ausgangssignal täuschend echt die Mimik der Zielperson überschreibt.

(Bild: Max-Planck-Institut für Informatik)

Damit das funktioniert, erstellen die Forscher vorab für beide Personen ein Gesichtsmodell mit einer mathematischen Beschreibung der Kopfgeometrie sowie dem Reflexionsgrad der Haut. Als Ausgangsdaten dienen Videoaufnahmen beider Akteure, die Tiefeninformation enthalten. Die dazu benötigte Kamera – beispielsweise Microsofts Kinect – erfasst dazu die Entfernung jedes Bildpunktes zur Szene.

Die Software analysiert Mimik und Lippenbewegungen beider Personen, berechnet die Unterschiede und passt die Mimik der Ausgangsperson auf das Gesicht der Zielperson an, bevor die Daten übertragen werden. Unterschiedliche Lichtverhältnisse in beiden Kameraaufnahmen beeinflussen das Ergebnis ebensowenig wie selbst stark unterschiedliche Pysignomien beider Personen. Bei Abweichung, etwa durch ein Wegdrehen des Gesichts während der Übertragung, kann die Software das schnell korrigieren. Wie das konkret aussehen kann, zeigen die Forscher in einem Youtube-Video.

Die Berechnung der aufwendigen Rekonstruktionsschritte soll dabei der Grafikprozessor eines modernen Standardrechners übernehmen, sodass für den Algorithmus keine spezielle Hardware nötig ist. Ein denkbares Einsatzgebiet der neuen Technk wäre die Nachvertonung synchronisierter Filmen, in denen die Lippenbewegungen der Zielperson deutlich von dem abweichen, was der gesprochene Text eigentlich nahelegt.

Grundsätzlich begreifen die Forscher ihr Ergebnis aber auch als einen Baustein für Techniken, mit denen Computer ihre Umwelt erfassen, um Interaktion zwischen digitaler und realer Welt zu ermöglichen, etwa in der Robotik, in augmentierten oder virtuellen Welten. Sie versäumen es zudem nicht, darauf hinzuweisen, dass diese Technik diverse Manipulationsmöglichkeiten eröffnet. So ließe sich etwa bei einem vermeintlicht in Echtzeit übertragenen Video-Stream das, was der dort Agierende übermitteln will, durch gänzlich andere Botschaften übermalen.

Offiziell wollen die Forscher ihr Projekt "Real-time Expression Transfer for Facial Reenactment" auf der achten SIGGRAPH Asia vorstellen, die Anfang November im japanischen Kobe stattfinden wird. Der Algorithmus ist das Ergebnis einer Gemeinschaftsarbeit von Forschungsgruppen der Universität Erlangen-Nürnberg, des Max-Planck-Instituts für Informatik in Saarbrücken sowie der Universität von Stanford. (ka)