Google Docs extrahiert Text aus PDFs

Anwender von Google Docs können PDF-Dokumente in die Cloud-Anwendung laden, die daraus Texte extrahiert.

In Pocket speichern vorlesen Druckansicht 83 Kommentare lesen
Lesezeit: 1 Min.
Von
  • Christian Kirsch

Die bislang als "experimentell" gekennzeichnete Extraktion von Text aus PDF-Dokumenten und Bildern hat Google nun für den Produktiveinsatz in seiner Docs-Anwendung freigeschaltet. Dadurch sollen Anwender vorhandene Dateien zur weiteren Verarbeitung in das Docs-Format übernehmen können.

In einem kurzen Test funktionierte das Verfahren zwar im Prinzip, bei vielen Details gab es jedoch Schwierigkeiten. So kann die Software mehrspaltigen Text nur schlecht erkennen, sodass die einzelnen Spalten durcheinander geraten. In einem anderen Fall brach die Texterkennung ohne Fehlermeldung nach wenigen Seiten ab. Anders als bei der Verwendung von Pixelformaten wie GIF oder PNG gibt es bei Googles PDF-OCR jedoch keine Missgriffe bei den einzelnen Zeichen. (ck)