Unhörbare "Spracheingaben" können digitale Assistenten steuern

Sprachgesteuerte digitale Assistenten lassen sich kapern, ohne dass der rechtmäßige Nutzer es hören kann. Das haben Forscher der Princeton Universität demonstriert.

306

Vernetzte Lautsprecher mit digitalem Assistenten: Links ein Amazon Echo, rechts ein Google Home

29.08.2017, 07:48 Uhr

Lesezeit: 2 Min.

Von

Daniel AJ Sokolov

Für Hacker ist jede Systemschnittstelle eine Angriffsfläche. Das gilt auch für Mikrophone, wie sie in Handys oder vernetzten Lautsprechern und Fernsehern eingebaut werden. Diese Mikrophone übersetzen Schallwellen in digitale Signale, wobei aber stets Verzerrungen auftreten. Diese Verzerrungen können Hacker ausnutzen, um Befehle auszulösen, die für Menschen entweder wie sinnloses Geplapper klingen oder gar völlig unhörbar sind.

Google Home spricht nun auch Deutsch und musste sich einem c't-Test stellen (c't 18/2017, S. 124).

Ersteres haben Forscher der Georgetown Universität bereits auf der Usenix WOOT 2015 demonstriert. Sie verzerrten Sprachbefehle so, dass sie für Menschen unkenntlich wurden. Was menschliche Zuhörer als "Cocaine Noodles" auffassten, klang für die Android-Spracherkennung wie der einleitende Befehl "OK, Google". Bereits 2016 zeigten sie auf der Usenix Security, dass die verzerrten Kommandos auch in einer in Geräuschkulisse funktionieren, etwa bei Hintergrundmusik.

Nun haben Wissenschaftler der Princeton Universität gezeigt, dass es auch völlig geräuschlos geht: Sie haben mittels eigener Lautsprecher Ultraschallwellen ausgesandt, die von den Mikrophonen in Amazons Echo und einem Android-Handy so verzerrt werden, dass sie von deren digitalen Assistenten als Sprachkommandos verarbeitet werden. Die Forscher zeigen in einem Youtube-Video, dass sie Fotos machen, den Flugzeugmodus aktivieren, einen Wetterbericht auslösen und Milch auf die Einkaufsliste setzen können.

Unhörbare Sprachkommandos

Für das menschliche Ohr ist allerdings nichts zu hören. Beim Android-Handy gelang die Attacke in fünfzig von fünfzig Versuchen, bei Amazons Echo immerhin in vierzig von fünfzig Fällen. Die Reaktionen der digitalen Assistenten sind durchaus hörbar.

Allerdings lässt sich deren Reaktion im Voraus testen. Und da der Angreifer ja vor Ort bereits einen Lautsprecher betreibt, könnte er die hörbaren Antworten theoretisch durch Gegenschall unterdrücken. Das ist aber nicht Teil des vorige Woche veröffentlichten Papers "Inaudible Voice Commands".

Schwieriger gestaltet sich der Angriff, wenn ein digitaler Assistent Spracheingaben nur auswertet, wenn sie mit einem zuvor registrierten Stimmprofil übereinstimmen. Dann müsste der Angreifer zumindest eine Sprachaufnahme der befugten Person haben, um deren Stimmprofil unhörbar imitieren zu können.

(ds)