Lernfähige Digitalisier-Software

Ein Softwaresystem kombiniert Maschinen- und Menschenintelligenz, um schwer entzifferbare Texte in digitale Form zu bringen.

In Pocket speichern vorlesen Druckansicht 15 Kommentare lesen
Lesezeit: 2 Min.

Beim Digitalisieren von Formularen und anderen Dokumenten mit Handschrift werden die Inhalte vielerorts noch händisch in den Computer eingegeben. Das ist langsam, fehleranfällig und teuer. Eine selbstlernende Software von Captricity könnte diese Arbeit enorm beschleunigen und verbilligen – und damit vor allem armen Ländern helfen, berichtet Technology Review.

(Bild: Mattes / Wikipedia / PD)

Den ersten Großtest bestand Captricity 2011 in Mali bei einer 37000 Seiten umfassenden Umfrage über die Regierung. Zwei Sachbearbeiter hätten dafür geschätzte acht Monate gebraucht – das Überprüfen der eingegebenen Daten nicht mit eingerechnet. Das Softwaresystem schaffte es innerhalb einer Woche. Menschliche Beteiligung braucht zwar auch das vom Unternehmensgründer Kuang Chen entwickelte Verfahren noch, allerdings kommt es mit vergleichsweise wenig davon aus.

Und so funktioniert es: Zuerst lädt der Kunde Fotos seiner Dokumente in einen Clouddienst wie Dropbox. Dann teilt die Software die Aufnahmen in viele kleinere Stücke auf, die über den Amazon-Crowdsourcing-Dienst "Mechanical Turk" zunächst von Menschen digital transkribiert werden. Anhand der gelieferten Dateien lernt die Software schrittweise dazu und übernimmt das Digitalisieren schließlich fast komplett selbst – Menschen müssen nur noch beim Interpretieren besonders unklarer Einträge helfen.

In armen Ländern bietet Captricity seinen Dienst umsonst oder sehr günstig an. Seine Kosten deckt das Unternehmen durch zahlende Großkunden wie Dell, die Harvard Law School und die US-Regierung. Das Verfahren könnte Chen zufolge auch westlichen Organisationen helfen, die noch viel mit Papierformularen arbeiten. Für seine Software erhielt er den TR35-Preis der US-Ausgabe von Technology Review. (Ted Greenwald) / (bsc)