Toolbox: Scan Tailor bringt gescannte Dokumente in Form

Das Open-Source-Programm Scan Tailor macht aus schlechten Scans ansehnliche Dokumente. Es bietet automatische Korrekturen und Werkzeuge für manuelle Anpassungen.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
Lesezeit: 5 Min.
Von
  • David Wolski
Inhaltsverzeichnis

Frisch geladene Scans in der Übersicht.

Aus einer Ansammlung schlecht gescannter Seiten macht Scan Tailor ansehnliche Dokumente. Dabei helfen automatische Korrekturfunktionen sowie Werkzeuge zum manuellen Anpassen und Entzerren besonders missratener Scans. Das Open-Source-Programm für Linux und Windows beherrscht den kompletten Workflow von der Auswahl des gescannten Bildmaterials bis zur Ausgabe von TIFF-Dateien für die Übergabe an ein OCR-Programm oder zum Erzeugen eines PDFs.

Scan Tailor lässt sich leicht bedienen, die Arbeitsschritte sind selbst erklärend, auch für die Stapelverarbeitung eignet es sich. Für optimale Ergebnisse sind einige Experimente mit den manuellen Korrekturwerkzeugen nötig. Anders als die Scan-Software Xsane braucht Scan Tailor zum Erstellen eines PDF-Dokuments ein zusätzliches Tool.

Scan Tailor (6 Bilder)

Projekt anlegen

Scan Tailor beherrscht die Stapelverarbeitung, deshalb übergibt man dem Programm am Besten ganze Verzeichnisse mit den eingescannten Bilddateien.

Scan Tailor ist plattformübergreifend und bietet auch Setup-Dateien für die Installation unter Windows.

In Ubuntu und Fedora kann Scan Tailor mit dem Paketmanager aus den Standard-Repositories installiert werden. Ein Paket für OpenSuse liefert der Build Service. Scan Tailor nutzt die Qt-Bibliothek für seine grafische Oberfläche, die Abhängigkeiten von weiteren Paketen sind aber überschaubar. Windows-Anwender finden die Setup-Datei von Scan Tailor für 32-Bit und 64-Bit auf der Projekt-Website bei Sourceforge.net.

Für Debian GNU/Linux muss man Scan Tailor bislang noch selbst kompilieren, wozu die Qt-Entwicklerbibliotheken nötig sind. Ist sonst nichts aus dem Dunstkreis von Qt installiert, wächst die Liste der zu installierende Pakete damit schnell auf gut 200 MB an. Den Quellcode von Scan Tailor in der aktuellen Version 0.9.11.1 gibt es auf Sourceforge.net; eine kurze Übersicht auf der Projekt-Webseite beschreibt die wesentlichen Schritte beim Kompilieren. Auf einem Debian 6 richtet der mit Administratorrechten eingegebene zweizeilige Befehl

apt-get install build-essential cmake libjpeg62-dev zlibc \
libpng12-dev libtiff4-dev libboost-all-dev libxrender-dev libqt4-dev

alle nötigen Pakete ein. Zwar bleibt dabei einiges an Plattenplatz auf der Strecke, die weiteren Schritte sind aber nicht weiter kompliziert. Mit

cmake .

wird zuerst im Verzeichnis des entpackten Scan-Tailor-Quellcodes eine passende Build-Umgebung erzeugt. Sollten noch Bibliotheken fehlen, beschwert sich cmake an dieser Stelle ausführlich. Wenn alles passt und cmake alle Makefiles erstellt hat, geht es mit

make
sudo make install

Nach dem Erzeugen der Build-Umgebung mit cmake kompiliert make den Quellcode und richtet Scan Tailor ein.

weiter, um Scan Tailor zu kompilieren und mit root-Rechten einzurichten.

Nach dem Aufruf von Scan Tailor erstellt man ein neues Projekt und fügt die zu bearbeitenden Scans hinzu. Das Programm akzeptiert dabei TIFF-, JPEG- und PNG-Dateien. Anschließend wählt man aus, mit welchen Scans man beginnen möchte. Scan Tailor beherrscht die Stapelverarbeitung mehrerer Dateien, deshalb übergibt man dem Programm gleich ganze Verzeichnisse. Im Auswahlfenster empfiehlt sich, die Option „Dpi korrigieren“ zu wählen, wenn es sich um Scans mit unterschiedlichen Auflösungen handelt. Daraufhin lässt sich für eine einzelne oder auch alle Bilddateien die gewünschte Größe in DPI angeben und mit „Übernehmen“ anwenden. Rechts in der Leiste zeigt Scan Tailor eine Vorschau, in der Mitte ist die aktuell ausgewählte Datei zu sehen. Rechts oben listet das Programm die einzelnen Arbeitsschritte für den Workflow auf.

Zunächst dreht man alle eingelesenen Scans, bis die Ausrichtung stimmt. Im nächsten Schritt des Workflows lassen sich die Dokumente in Einzelseiten zerlegen – das ist praktisch bei Scans aus Büchern und Zeitschriften. Den Bund oder Knick findet Scan Tailor automatisch so zuverlässig, dass nur selten eine manuelle Korrektur nötig ist. Nacheinander klickt man alle Seiten in der Vorschau an, um die Trennlinie zu setzen. Ein Klick auf den Pfeil im Workflow startet dann die Stapelverarbeitung. Der nächste Schritt „Ausrichten“ korrigiert eine eventuelle Schieflage der inzwischen aufgeteilten Einzelseiten. Mit blauen Anfassern lässt sich eine Seite am Raster ausrichten.

Passt hier alles, geht es mit „Inhalt auswählen“ zum Ausschneiden des relevanten Seiteninhalts. Handelt es sich um Text, leistet auch hier die automatische Erkennung von Scan Tailor gute Dienste, bei grafischen Elementen muss man dagegen manchmal manuell nachhelfen. Dabei wird nur der reine Inhalt erfasst, die Ränder werden im nächsten Schritt „Ränder (Stege)“ gesetzt, wobei Überflüssiges abgeschnitten wird. Das Angleichen aller Seiten passiert über die Schaltfläche „Anwenden auf“.

Mit „Dewarping“ bietet Scan Tailor eine Funktion zum Begradigen gescannter Seiten an, was insbesondere bei Buchseiten nützlich ist.

Der letzte Schritt im Workflow, "Ausgabe", hält interessante Einstellungen bereit, die das resultierende Bild beeinflussen. „Dewarping“ entzerrt Seiten, was bei fast allen Scans aus Büchern nötig ist. Ein Wechsel in die entsprechende Registerkarte am rechten Rand legt ein Raster über den Scan, das man durch Ziehen mit der Maus exakt auf den Seiteninhalt ausrichten kann. Das Ergebnis ist jeweils nach einem Wechsel in den Reiter „Ausgabe“ zu sehen. Die Option "Weiße Stege (Ränder)" übertüncht unschöne schwarze Ränder.

Die fertigen Dateien speichert Scan Tailor im Ausgabeverzeichnis im Format TIFF – das ist zwar nicht platzsparend, eignet sich aber gut für die Weiterverarbeitung mit anderen Programmen. Die Texterkennung Tesseract-OCR kann dieses Format beispielsweise einfach übernehmen. Mit Hilfe des Tools gscan2pdf lassen sich die TIF-Dateien in kompakte PDF-Dokumente überführen. Wer keine grafische Oberfläche braucht, ist stattdessen mit ImageMagick gut bedient, der Konsolenbefehl

convert datei1.tif datei2.tif datei3.tif datei4.tif datei.pdf

erzeugt im Nu aus den vier TIFF-Dateien ein PDF-Dokument. (lmd@ct.de) (lmd)