Google gliedert führenden Captcha-Spezialisten ein

Google hat den Kauf des Captcha-Spezialisten ReCaptcha bekannt gegeben. Dessen Webseiten-Plug-ins dürften viele Surfer schon einmal genutzt haben - nur wenige wissen allerdings, dass sie dabei auch an einem Digitalisierungsprojekt teilgenommen haben.

In Pocket speichern vorlesen Druckansicht 199 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Peter-Michael Ziegler

Der Internet-Konzern Google hat die Übernahme des Captcha-Spezialisten ReCaptcha bekannt gegeben. Captcha steht für "Completely Automated Public Turing test to tell Computers and Humans Apart" und kommt dem Internetnutzer meist in Form eines kleinen Kästchens auf Webseiten unter, in das er Ziffern oder Buchstaben eintragen muss, die man ihm zuvor in einer nicht maschinenlesbaren Form präsentiert hat. Angezeigt werden etwa kleine Buchstaben- oder Ziffernfolgen, die durch Bildfilter verzerrt sind. Manchmal müssen auch einfache Rechenaufgaben gelöst werden. Stimmt die Eingabe, ist der Nutzer als Mensch identifiziert und es wird die gewünschte Aktion ausgeführt. In Mode kamen Captchas mit dem Beginn des computerisierten Spam-Versands, aber auch Download-Hoster und große Web-2.0-Portale setzen die kleinen Mensch-Maschine-Tester inzwischen häufiger ein.

ReCaptcha, einst als Projekt der School of Computer Science der Carnegie Mellon University gestartet, wählt für seine Text-Captchas Wörter aus, an denen sich zuvor schon ein gutes OCR-Programm (Optical Character Recognition) die Zähne ausgebissen hat. Dem Internetnutzer, der eine Webseite mit einem ReCaptcha-Plug-in besucht, werden immer zwei Wörter präsentiert, die überlappende Buchstaben aufweisen und zusätzlich durch Deformationen verzerrt sind. Das Besondere an der ReCaptcha-Methode ist nun, dass der Nutzer nur ein Wort richtig erkennen und in das Kästchen eintragen muss – und dass er beim zweiten Wort eigentlich schreiben könnte, was er will. Das weiß der Nutzer aber in der Regel nicht, sondern tut, was ihm aufgetragen wurde, nämlich beide Wörter korrekt in das Kästchen einzutragen.

Während das eine präsentierte Wort ein Wort ist, das dem ReCaptcha-System schon bekannt ist, handelt es sich bei der anderen Buchstabenfolge um ein Wort, welches das System noch nicht kennt. Der Internetnutzer wird deshalb zur Entzifferung dieses zweiten Wortes aufgefordert – und seine geistige Leistung fließt in ein Buchdigitalisierungsprojekt ein. Denn das zweite Haupttätigkeitsfeld von ReCaptcha ist das Einscannen von Büchern und Zeitungen für das Internet Archive. Derzeit scannt ReCaptcha beispielsweise alte Ausgaben der New York Times ein. Und dabei kommt es immer wieder vor, dass die OCR-Programme bestimmte Wörter nicht lesen können. Solche Wörter tauchen dann in den Captchas des Unternehmens auf und werden ganz nebenbei von den Besuchern einer Internetseite entziffert.

Google schlägt mit der Übernahme von ReCaptcha gleich mehrere Fliegen mit einer Klappe: Zum einen kann das Unternehmen sein eigenes, einfacher gestricktes Captcha-System durch eine bessere Lösung ersetzen, zum anderen ergeben sich Synergien mit eigenen Aktivitäten zur Digitalisierung von Handschriften und Büchern, etwa bei Google Books oder der Newsarchiv-Suche. Über das Know-how und das Crowd-Sourcing-Konzept von ReCaptcha dürften sich nicht zuletzt die eigenen OCR-Erkennungsraten deutlich verbessern lassen. Über finanzielle Details der Übernahme wurde nichts bekannt. Die Funktionsweise unterschiedlicher Captchas und deren Schwachstellen beleuchtet im Übrigen der Artikel "Testbilder – Der Kampf zwischen Captcha-Entwicklern und Spam-Bots" (c't 09/08), der über den Heise-Kiosk zum Preis von 0,50 Euro abrufbar ist. (pmz)