Texterkennung genau anpassen: Mit Python Texte in Bildern erkennen

Mit ein paar Zeilen Python-Code und Pytesseract lassen sich Texte in Bildern erkennen und damit durchsuchbar machen -- praktisch für fotografierte Dokumente.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Lesezeit: 12 Min.
Inhaltsverzeichnis

Mit Texterkennung werden analoge Dokumente endlich digital. Man scannt eine Rechnung ein und spezielle Programme machen aus der getrockneten Tinte digitale Buchstaben und Ziffern, die man am Rechner kopieren und weiterverarbeiten kann. So wird die Rechnung vollständig durchsuchbar und im Dateiwust findet der Nutzer sie leichter wieder.

Mittlerweile gibt es viele Texterkennungs-Tools (OCR/Optical Character Recognition). Manche Scanner liefern sie gleich mit oder Freeware aus dem Netz liest jedes erdenkliche Format ein und versucht Buchstaben zu erkennen. Mit Python und der OCR-Bibliothek Pytesseract können Sie allerdings selbst Texterkennung in Skripte einbauen und den Prozess individuell anpassen. So lassen sich auch schwierige Fälle bearbeiten, bei denen die Standardsoftware des Scanners schlappmacht.

Wir zeigen, wie Sie Pytesseract unter Windows nutzen und Texte damit lesbar machen. Als Beispiel nutzen wir ein Song-Booklet einer unbekannten Band und ein Foto einer Brettspielanleitung. Texterkennung lohnt sich vor allem dann, wenn es für die Dokumente noch keine digitale Version gibt. Mit Pytesseract und Python stimmen Sie die Texterkennung passgenau auf das Ausgangsbild ab und versuchen den Text originalgetreu zu extrahieren.