Texterkennung mit Tesseract und Python

Die Python-Bibliothek pytesseract erkennt Text in Grafiken und liest ihn aus. Unser kleines Programmier-Projekt liest aus einer PDF-Datei einen Speiseplan.

Artikel verschenken

13

(Bild: Albert Hulm)

15.03.2019, 15:01 Uhr

Lesezeit: 8 Min.

c't Magazin

Von

Otis Sotek

Texterkennung mit Tesseract und Python
- Vom PDF zum Bild
Speiseplan in Bilder aufteilen
Die Ausgabe frisieren

Artikel in c't 7/2019 lesen

Mit Optical character recognition (OCR) können Programme Text aus Bildern lesen und dann als Zeichenkette weiterverarbeiten. Das ist nützlich, um etwa gescannte Briefe maschinell zu durchsuchen oder in Bildern Kennzeichen zu erkennen. Unter der Haube von modernen OCR-Engines steckt meist künstliche Intelligenz. Die hat an tausenden von Beispielen gelernt, wie Zeichen und Schriften aussehen und welchen Text sie darstellen.

In diesem Beispiel soll die OCR-Bibliothek tesseract von Google den Speiseplan der Heise-Kantine im PDF-Format in Python auslesen und das Angebot des Tages bereitstellen.

Es mag übertrieben klingen, Bilderkennung auf ein PDF anzuwenden, wenn es Programme wie pdftotext gibt, die eingebetteten Text aus einem PDF von vorne bis hinten ausgeben. Bei einer Tabelle, die aus Excel exportiert wurde, wie dem Speiseplan, klappt das aber nicht. Zudem liest pdftotext nur Dateien, in denen der Text auch als Text eingebettet ist. Liegt der Plan als Bild vor, wird OCR benötigt.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Wie Sie Ihren alten Kindle nach dem Supportende weiternutzen

Amazon klemmt alte Kindle am 20. Mai von seinem Store ab und verhindert den Download gekaufter Bücher. So können Sie ihn weiter benutzen und neue Bücher lesen.

UpdateKaufberatung: Welchen Mac brauche ich?

MacBook, Mac mini oder Mac Studio? Wie viel RAM, welche SSD-Größe und welches Display? Wir stellen Apples Modellpalette vor und geben Tipps zu Gebrauchten.

EUDI-Wallet: Der regulatorische Fahrplan zur digitalen Identität

Deutschland hat einen Referentenentwurf für das Digitale-Identitäten-Gesetz (DIdG) vorgelegt. Der Text belässt wichtige Punkte ungeklärt.

Photovoltaikanlagen auf einem Ziegeldach

Netzentgelte im Umbruch: Warum es für PV-Anlagenbesitzer teurer werden könnte

PV spart heute über Eigenverbrauch. Doch neue Netzentgelt-Modelle könnten diesen Vorteil zunichtemachen. Was geplant ist – und was Verbraucher wissen sollten.

EUDI-Wallet: Das ist der aktuelle Stand der digitalen europäischen Brieftasche

Die digitale Brieftasche als Smartphone-App soll ab 2027 einen einheitlichen Rahmen für rechtssichere digitale Authentifizierung setzen.

E-Bus Kia PV5 Passenger Elite im Test: Die günstige Buzz-Alternative

Der PV5 könnte das elektrische Vansegment deutlich beleben, denn er überzeugt im Test mit einem ausgezeichneten Preis-Leistungs-Verhältnis.

Beliebte Bestenlisten

Alle bestenlisten

Top 5: Das beste Gehäuse für M.2-SSD im Test – externe Festplatte im Selbstbau

Top 10: Der beste Mähroboter im Test

Top 10: Der beste Smart Ring im Test – Oura, Galaxy Ring & Alternativen ohne Abo

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}