Finde den Fehler

Neue Technologien erlauben gefälschte Videos oder Sprachaufnahmen, die Laien kaum mehr als solche erkennen können. Wie sollen wir damit umgehen?

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 8 Min.
Von
  • Denis Dilba
Inhaltsverzeichnis

Stellen Sie sich vor, Angela Merkel würde in einem Video sagen: "Unser Ziel ist die Islamisierung Deutschlands." Rechtspopulisten würden eine ihrer großen Verschwörungstheorien bestätigt sehen. Aber Sie sollten den Satz nicht glauben, denn er ist nie gefallen. Leider wird es 2018 schwerer als je zuvor, seinen Augen und Ohren zu trauen. Wissenschaftler vom Graphics and Imaging Lab (GRAIL) der University of Washington haben im Juli 2017 ein KI-Verfahren präsentiert, das Sprachaufzeichnungen in Lippenbewegungen verwandeln kann.

Die Software kann Politikern vom Bürgermeister bis hinauf zur Bundeskanzlerin Worte in den Mund legen, die keiner der Betroffenen je gesagt hat. Kommendes Jahr könnten Fake News damit eine völlig neue Dimension bekommen. Google-Forscher und KI-Experte Ian Goodfellow warnte auf der Konferenz EmTech am Massachusetts Institute of Technology Anfang November bereits, skeptischer zu sein, wenn es um Nachrichten geht. Vielleicht müssten wir uns sogar daran gewöhnen, den meisten Multimedia-Inhalten im Internet nicht mehr zu glauben, sagt Goodfellow. Glaube keinem Beweis, den du nicht selbst gefälscht hast, könnte der zynische Schluss lauten.

Möglich werden diese beunruhigenden Kunststücke durch neuronale Netzwerke. Das Team um Junginformatiker Supasorn Suwajanakorn ließ seine Software rund 14 Stunden Videomaterial von Barack Obama analysieren. Das Programm lernte so bis ins kleinste Detail, wie sich Obamas Lippen, Mundpartie und Hals bewegen, wenn er spricht. Die nachgebaute Mimik lässt sich anschließend nahezu perfekt in fremde Videos kopieren. Vor der Kamera, sagen die US-Forscher, könnten sie den ehemaligen US-Präsidenten nun alles sagen lassen. Als Beweis ließen sie Obama in aktuellen TV-Aufnahmen eine seiner alten Reden sprechen. Im Originalton erzählte er etwas vollkommen anderes. Das funktioniert auch für normale Menschen, da die US-Software bereits aus kurzen, unscharfen Aufnahmen aus Skype, Apple Facetime oder Google Hangouts Lippenbewegungen lernen kann.

"Mit solchen Tools werden zunehmend überzeugendere Fälschungen für Heimanwender möglich, und daher wird der bisher geringe Prozentsatz zunehmen, der solche Manipulationen in Erwägung zieht", sagt Thomas Gloe, Chef der Multimediaforensik-Firma dence aus Dresden. Dass man Gesichtsausdrücken generell nicht mehr trauen kann, hatte bereits eine deutsch-amerikanische Forschergruppe Ende 2016 in ihrem Projekt Face2Face gezeigt. Sie übertrugen die Mimik einer fremden Person in Echtzeit auf Videoaufnahmen von Politikern wie George W. Bush, Wladimir Putin und Donald Trump. Das funktioniert beeindruckend gut, aber nur in Sprechpausen, da sonst Lippenbewegungen und Sprache nicht zusammenpassen. Gefälschte Lippenbewegungen sind jedoch nur der erste Schritt.

Denn mit ihnen allein ließe sich noch keine Ansprache schaffen, die etwa ein US-Präsident nie halten würde. Was fehlt, ist ein Programm, das beliebige Sätze als Sprache ausgibt – und zwar in der Sprechweise des Redners. Aber auch das existiert bereits: Ende letzten Jahres hatte der US-Softwarekonzern Adobe, der vor allem für sein umfassendes Bildbearbeitungsprogramm Photoshop bekannt ist, einen neuen Sprachsynthesizer präsentiert. Das KI-Programm VoCo, kurz für Voice Conversion, wird mit 20 Minuten Sprachaufnahme einer Person trainiert und kann danach die jeweilige Stimme täuschend echt nachahmen, auch Wörter, die im Trainingsmaterial gar nicht vorkommen.

Was VoCo sagen soll, wird einfach per Tastatur in ein Formular getippt. Noch ist zwar unklar, ob VoCo überhaupt auf den Markt kommt. Aber Adobe ist nicht mehr allein mit der Technik. Das Start-up Lyrebird aus Kanada etwa schafft Ähnliches – und benötigt dafür sogar nur eine Minute Sprachaufzeichnung. Eigentlich wollen die Entwickler mit ihrer Technologie Menschen mit starken sprachlichen Behinderungen eine richtige Stimme verleihen, Alexa, Siri und Chatbots menschlicher klingen lassen sowie Hörbücher und Podcasts von prominenten Schauspielern oder Tweets mit der Stimme des Absenders vorlesen lassen. Aber der Grat zur bewusst irreführenden Fälschung ist schmal. Den auf ihrer Homepage veröffentlichten Stimmproben von Barack Obama und Donald Trump hört man zwar noch an, dass sie nicht vom Original stammen, das Start-up steht aber noch am Anfang und sucht weitere Geldgeber. Gelingt das, dürfte die Technik schnell besser werden.

Für Experten sind derartige Fälschungen zugegeben leicht zu erkennen. "Für die Stimmbiometrie ist das kein Problem, denn auch bei qualitativ guten Sprachsynthesen entstehen Artefakte, die wir im Spektrogramm erkennen können", sagt Nils Lenke, Forschungschef des auf Sprachverarbeitung spezialisierten Unternehmens Nuance Communications. Man schaue sich dafür Merkmale wie Wellenformen, Frequenzen und Frequenzänderungen an, "der Rest ist Geschäftsgeheimnis".

Normalen Internetnutzern wird diese Methode allerdings eher nicht zur Verfügung stehen, zumindest nicht in absehbarer Zeit. "Sie kann man mit so erzeugten Sprachfälschungen viel leichter übertölpeln", sagt Lenke. Adobe will das für Sprache, die mit ihrem Programm VoCo erzeugt wird, mit einer Art akustischem Wasserzeichen verhindern. Wie das funktionieren soll, könne noch nicht verraten werden, sagt Adobe-Entwickler Zeyu Jin. Lyrebird hingegen hat die Hoffnung, dass vom Rechner erzeugte Sprache von Laien künftig einfach erkannt werden kann, offenbar schon aufgegeben. Sie hätten sich bewusst dazu entschieden, ihre Technologie zu veröffentlichen und sie schrittweise einzuführen, "damit sich die Gesellschaft darauf einstellen kann, ihre positiven Aspekte nutzen und gleichzeitig potenziell negative Anwendungen verhindern kann", schreibt das kanadische Entwicklerteam auf seiner Website.

Ähnliches gilt für Videos. Dem Spezialisten verrät Analysesoftware für das bloße Auge nicht erkennbare Fehler: In Filmaufnahmen seien immer auch eindeutige Spuren der Kamera enthalten, mit der die Aufnahmen gemacht worden sind, sagt Gloe, der vor seiner Firmengründung solche Spezialverfahren an der TU Dresden entwickelt hat. "Statistische Berechnungen zeigen uns, ob dieser Fingerabdruck in bestimmten Frames gestört ist." Ebenso komme man mit selbst entwickelten Analysewerkzeugen Auffälligkeiten bei Kompressionsmustern und Skalierungsfehlern in einzelnen Bildbereichen auf die Spur, sagt der Chef von dence. Mit solchen Methoden kann auch die nachträglich manipulierte Obama-Rede entlarvt werden.

Derartige Software will das EU-geförderte Projekt "InVID –In Video Veritas" nun Nachrichtenagenturen und Verlagshäusern zur Verfügung stellen, um User Generated Videos weitgehend automatisch zu überprüfen. Dazu analysiert der Code, ob die Landschaft in der Umgebung, die Tageszeit, die Kleidung oder andere Inhalte des Videos zu dem Ereignis passen – und gibt eine Schnellprognose über Anzeichen für eine Fälschung ab. Im Zweifelsfall müssen aber auch hier Spezialisten wie Gloe helfen.

Normale Menschen haben es allerdings deutlich schwerer. Ihnen stehen erstens diese Software-Lösungen bisher nicht zur Verfügung, weder für die Sprach- noch die Videomanipulation. Und zweitens haben die Fälscher immer einen Vorsprung: Bevor überhaupt jemand beweisen kann, dass ein Fake unterwegs ist, hat es sich über soziale Netzwerke schon weit verbreitet.

So bleibt nur eine große Portion Skepsis, insbesondere bei besonders abwegig erscheinenden Äußerungen oder vermeintlich auf Video dokumentierten Handlungen. "Bei vielen einfacheren Fälschungen sieht man bereits bei genauerem Hinschauen Fehler", sagt Gloe. "Das sind oft Unstimmigkeiten bei physikalischen Gesetzen, beispielsweise falsche Wurfbahnen und nicht mögliche Bewegungsabläufe von Objekten und Personen oder offensichtliche Artefakte wie Ecken von einkopierten Szenen." Immerhin einen groben Schnellcheck der Aktualität eines Videos und des Wahrheitsgehalts von Nachrichten ermöglicht der YouTube DataViewer von Amnesty International. Über die Google-Bilderrückwärtssuche kann hier überprüft werden, ob es sich bei den Vorschaubildern um alte Aufnahmen handelt – und damit, ob sie schon einmal in einem anderen Zusammenhang verwendet wurden.

(bsc)