Googles reCAPTCHA angeknackst

Ein kürzlich veröffentlichtes Verfahren ermöglichte eine Trefferquote bei der automatischen Erkennung von Google Captchas von 18 Prozent. Allerdings beruhte die Methode auf alten Captchas, die Google so nicht mehr verwendet.

In Pocket speichern vorlesen Druckansicht 99 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Daniel Bachfeld

Google hat dementiert, dass die aktuelle Fassung seines Captcha-Dienstes reCAPTCHA Schwachstellen aufweise, die es Spammern erleichtere, die dargestellten Wörter mit automatischen Skripten zu erraten. Completely Automated Public Turing test to tell Computers and Humans Apart (CAPTCHA) soll von Spammern und anderen Kriminellen benutzte Tools unwirksam machen, die automatische Tätigkeiten wie das Anlegen von Konten in Foren und bei Maildiensten erledigen. Dazu wird beispielsweise zur Bestätigung der Anmeldung ein grafisch verzerrter Text angezeigt, den der Anwender eingeben muss.

Am Wochenende hatte der Software-Entwicker Jonathan Wilkins ein Dokument (PDF) veröffentlicht, das ein Verfahren beschrieb, mit dem sich die Trefferquote automatisch erkannter Google-Captchas auf fast 18 Prozent steigern ließe. Damit würde das reCAPTCHA-Verfahren als geknackt gelten, da beispielsweise Botnetze in größerem Umfang automatisch Mailkonten bei Diensten mit hoher Reputation anlegen und die Spammer von dort ihre Junk-Mails versenden könnten. Allerdings bezog sich das von Wilkins beschriebene Verfahren auf Anfang 2008 benutzte "reCAPTCHAS".

Gegenüber heise Security gab Wilkins zu, dass Google bereits Ende des vergangenen Jahres auf seine Anregung hin reCAPTCHA überarbeitet hat. Unter anderem enthalten neuere Captchas keine zusätzlich eingeblendeten horizontalen Linien mehr, die für ein zusätzliches "Rauschen" sorgen sollen. Zudem streckt und verformt Google die Captchas nun offenbar stärker als früher, was die Segmentierung zur besseren automatischen Erkennung erschwert. Laut Wilkins ließen sich diese Verzerrungen aber vermutlich zurückdrehen.

Anders als bei anderen Captcha-Verfahren bekommt der Anwender bei reCAPTCHA zwei sinnvolle Wörter präsentiert. Die Wörter stammen aus Googles Projekten zur Digitalisierung von Büchern und alten Zeitschriften, bei denen die automatische Erkennung mittels OCR versagt hat. Google schlägt damit zwei Fliegen mit einer Klappe: Ein kostenloser Captcha-Dienst und die Zuarbeit von Millionen Anwendern zur Vervollständigung der eingescannten Texte. Die spannende Frage dabei: Woher weiß reCAPTCHA, dass die eingegebenen Wörter richtig sind, wenn das Google-System sie selbst nicht erkannt hat? Die Antwort: Eigentlich gar nicht. Nur eines der Wörter ist wirklich unbekannt, bei dem anderen gibt es bereits Antworten anderer Anwender. Stimmt das eine eingebene Wort mit den Erkenntnissen der anderen Anwender überein, nimmt reCAPTCHA an, dass der Anwender das bislang nicht erkannte, zweite Wort ebenfalls richtig erkannt und eingegeben hat.

Trotz der Verbesserung weist reCAPTCHA weiterhin Schwachpunkte auf, meint Wilkins: Es beruht auf existierenden, englischen Wörtern, was die Entropie stark verringere. Zudem kenne Google selber nur eines der zwei eingeblendeten Wörter und erlaube dort auch noch einige Fehleingaben. Für eine neuere Analyse benötige Wilkins nach eigenen Angaben jedoch Zeit – die ihm derzeit fehle. Er sei ohnehin überrascht, dass seine Veröffentlichung auf solch eine Resonanz stoße. Die Studie sei eigentlich nur für ein paar Freunde gedacht gewesen, als er auf Twitter darauf hinwies.

Alternativ zu textbasierten Captchas gibt es auch motivbasierte Captcha-Verfahren, etwa Microsofts Asirra, bei dem der Anwender alle Katzen in einem Block markieren muss. (dab)