Warum Google seine Audio-Captchas ändern musste

Jüngst hat Google seine Audio-Captchas von vorgelesenen Ziffern auf Satzfetzen mit Störgeräuschen umgestellt. Der Grund dafür wurde auf der WOOT '17 in Vancouver offenbart.

In Pocket speichern vorlesen Druckansicht 154 Kommentare lesen
Katze, darüber "reCpatcha - Tough on bots - Easy on humans"

Ganz so tough on bots, wie es Googles Werbesujet zu vermitteln sucht, war es dann doch nicht...

(Bild: Screenshot (Google))

Lesezeit: 3 Min.

Vor kurzem hat Google die Audio-Aufgaben seines Captcha-Dienstes erschwert. Captchas dienen dazu, echte Menschen, die kleine Aufgaben wie Bild- oder Spracherkennung lösen können, von Bots zu unterscheiden, die an den Aufgaben tunlichst scheitern sollen. Doch Forscher der Universität von Maryland haben herausgefunden, dass die herkömmlichen Audio-Captchas nicht nur leicht automatisiert zu lösen sind, sondern dass das sogar gratis geht.

Kevin Bock, George Hughey, Daven Patel (v.l.n.r.) und Dave Levin (nicht im Bild) knackten Googles Audio-Captchas mit minimalen Mitteln.

(Bild: Daniel AJ Sokolov)

Am Montag stellten sie ihre Arbeit auf der Konferenz WOOT '17 (Usenix Workshop on Offensive Technologies) in Vancouver vor. "1% Erkennungsrate reicht für einen Computer schon aus, um mit etwas Zeit die Captchas zu lösen. Wir sind aber davon ausgegangen, dass der Angreifer nur über sehr geringe Ressourcen verfügt", erklärte Daven Patel die Aufgabenstellung. Er und seine Kollegen nutzten einen winzigen virtuellen Server mit 1 GB RAM und 8 GB Speicher, den Amazon Elastic kostenlos bereitstellt (t2.micro).

Allerdings hat ein armer Angreifer keine eigene Spracherkennnug. Der Versuch, die von Google vorgelesenen Ziffern einfach durch Googles eigene Spracherkennung in Text umwandeln zu lassen, scheiterte zunächst. Das Ergebnis war Müll. Denn Googles Spracherkennung versucht mit Künstlicher Intelligenz (KI) aus einem vermeintlich erkannten Wort auf das nächste zu schließen.

Ergebnisanzeige von Googles wohlbekanntem Recaptcha-Dienst.

(Bild: Google)

In einem zweiten Anlauf ließen die Wissenschaftler das Vorgelesene von einem Script anhand der Pausen in kleinere MP3 teilen. Diese kleinen Dateien mit jeweils nur einer vorgelesenen Ziffer kippte das Script bei sechs kostenlosen Spracherkennungsdiensten ein (Google Cloud, Google Speech API, Bing, IBM Bluemix, Wit-AI8 und Sphinx). Die Vorlage der kurzen MP3 verunmöglichte es der KI, auf vereinheitlichte Wortfolgen zu schließen.

Manchmal erkannten die Dienste Zahlworte, manchmal fälschlicherweise andere Worte. Für letzteren Fall erstellten die Forscher Tabellen, in denen Worte, die ähnlich klingen wie Zahlen, den passenden Ziffern zugeordnet wurden. Beispielsweise: "free" zu "three" zu 3, oder "who" zu "two" zu 2. Durch die Zusammenführung der Ergebnisse zweier Spracherkennungsdienste wurden so 47 Prozent von Googles Audio-Captchas gelöst, mit vier Diensten fast 80 Prozent, mit allen sechs sogar leicht darüber.

Mehr Infos

heise Developer empfiehlt Alternativen zu Captchas

An einer Zahl scheiterten die Spracherkennungsdienste relativ häufig: six (sechs). Die Sicherheitsforscher instruierten ihr Script daher, alle Ergebnisse, die nicht zuzuordnen sind, als 6 zu werten. Mit diesem kuriosen Schritt erhöhten sie die Erkennungsquote einzelner Ziffern auf 93,4 Prozent, womit sie 85,2 Prozent von Googles Audio-Captachs automatisiert lösen konnten. Durchschnittlich dauerte das 5,4 Sekunden. Dass das für einen menschlichen Anwender viel zu schnell war, störte Googles Recaptcha nicht.

Im März informierten die Wissenschaftler Google über ihre Erkenntnisse. Vor kurzem hat der Datenkonzern ein neues System online gebracht. Statt Ziffern lässt es englische Phrasen erklingen, und statt stiller Pausen spielt es Geräusche ein. Außerdem erkennt es automatisierte Browser besser. Zusätzlich empfehlen die Wissenschaftler, die Aufgaben komplexer zu gestalten. Das könnten Rechenaufgaben sein oder Anweisungen wie "Tippen Sie Hund ein, aber nicht Katze!".

(ds)