Texterkennung bei Evernote
Ich benutze die Notizverwaltung Evernote, die auch nach Texten in Bildern suchen kann (c’t 7/10, S. 71). Ist es möglich, auf den ausgelesenen Text auch anders als über die Suche zuzugreifen, sodass man die Software auch für OCR benutzen kann?
Ich benutze die Notizverwaltung Evernote, die auch nach Texten in Bildern suchen kann (c’t 7/10, S. 71). Ist es möglich, auf den ausgelesenen Text auch anders als über die Suche zuzugreifen, sodass man die Software auch für OCR benutzen kann?
Evernote verarbeitet Text auf Bildern nicht im lokal installierten Client, sondern auf dem Server, der auch als Datenzentrale dient. Dies ist auch der Grund, warum die Notizverwaltung Wörter auf frisch hinzugefügten Fotos zunächst nicht findet, sondern erst nach dem nächsten Synchronisieren. Anschließend funktioniert die Suche aber auch, wenn Ihr Computer aktuell nicht mit dem Internet verbunden ist. Damit dies möglich ist, speichert der Client die von der OCR-Komponente (OCR = Optical Character Recognition) erkannten Wörter auch lokal.
Unter Mac OS X legt die Software für jede Notiz einzeln eine XML-Datei mit der Endung .reco an. Unter „/Benutzer/<Name>/Library/Application Support/Evernote/data/<Zahl>/content“ findet man pro Notiz ein Unterverzeichnis, in dem auch die jeweilige XML-Datei liegt. Wenn Sie eine solche Datei mit einem Texteditor öffnen, sehen Sie, dass Evernote für die vorgefundenen Zeichenketten verschiedene Lesarten speichert, um so die bei OCR nie ganz zu vermeidende Unsicherheit bei der Worterkennung auszuschalten. Dass die Texterkennung nicht perfekt ist, sieht man in der zweiten Hälfte des Beispiels: Die dort aufgeführten Worte meint Evernote in der Marmorstruktur rechts vom Zettel entdeckt zu haben.
Unter Windows kommt man leider nicht so gut an die Liste der erkannten Wörter – der Windows-Client packt den Inhalt aller Notizen in eine einzige Datei namens <Evernote-Kontobezeichnung>.exb. Diese liegt bei Windows Vista unter C:\Users\<Nutzername>\AppData\Local\Evernote\Evernote\Databases.
Da die Texterkennung immer nur einzelne Wörter speichert und keinen zusammenhängenden Text bildet, eignet sich das Ergebnis nicht als Ersatz für eine lokal arbeitende OCR-Software. (pek)