zurück zum Artikel

Toolbox: Scan Tailor bringt gescannte Dokumente in Form

| David Wolski

Das Open-Source-Programm Scan Tailor macht aus schlechten Scans ansehnliche Dokumente. Es bietet automatische Korrekturen und Werkzeuge fĂŒr manuelle Anpassungen.

Scan Tailor

Frisch geladene Scans in der Übersicht.

Aus einer Ansammlung schlecht gescannter Seiten macht Scan Tailor ansehnliche Dokumente. Dabei helfen automatische Korrekturfunktionen sowie Werkzeuge zum manuellen Anpassen und Entzerren besonders missratener Scans. Das Open-Source-Programm fĂŒr Linux und Windows beherrscht den kompletten Workflow von der Auswahl des gescannten Bildmaterials bis zur Ausgabe von TIFF-Dateien fĂŒr die Übergabe an ein OCR-Programm oder zum Erzeugen eines PDFs.

Scan Tailor lĂ€sst sich leicht bedienen, die Arbeitsschritte sind selbst erklĂ€rend, auch fĂŒr die Stapelverarbeitung eignet es sich. FĂŒr optimale Ergebnisse sind einige Experimente mit den manuellen Korrekturwerkzeugen nötig. Anders als die Scan-Software Xsane braucht Scan Tailor zum Erstellen eines PDF-Dokuments ein zusĂ€tzliches Tool.

Scan Tailor (0 Bilder) [1]

[2]
Windows-Version

Scan Tailor ist plattformĂŒbergreifend und bietet auch Setup-Dateien fĂŒr die Installation unter Windows.

In Ubuntu und Fedora kann Scan Tailor mit dem Paketmanager aus den Standard-Repositories installiert werden. Ein Paket fĂŒr OpenSuse liefert der Build Service [3]. Scan Tailor nutzt die Qt-Bibliothek fĂŒr seine grafische OberflĂ€che, die AbhĂ€ngigkeiten von weiteren Paketen sind aber ĂŒberschaubar. Windows-Anwender finden die Setup-Datei von Scan Tailor fĂŒr 32-Bit und 64-Bit auf der Projekt-Website [4] bei Sourceforge.net.

FĂŒr Debian GNU/Linux muss man Scan Tailor bislang noch selbst kompilieren, wozu die Qt-Entwicklerbibliotheken nötig sind. Ist sonst nichts aus dem Dunstkreis von Qt installiert, wĂ€chst die Liste der zu installierende Pakete damit schnell auf gut 200 MB an. Den Quellcode von Scan Tailor in der aktuellen Version 0.9.11.1 gibt es auf Sourceforge.net [5]; eine kurze Übersicht [6] auf der Projekt-Webseite beschreibt die wesentlichen Schritte beim Kompilieren. Auf einem Debian 6 richtet der mit Administratorrechten eingegebene zweizeilige Befehl

apt-get install build-essential cmake libjpeg62-dev zlibc \
libpng12-dev libtiff4-dev libboost-all-dev libxrender-dev libqt4-dev

alle nötigen Pakete ein. Zwar bleibt dabei einiges an Plattenplatz auf der Strecke, die weiteren Schritte sind aber nicht weiter kompliziert. Mit

cmake .

wird zuerst im Verzeichnis des entpackten Scan-Tailor-Quellcodes eine passende Build-Umgebung erzeugt. Sollten noch Bibliotheken fehlen, beschwert sich cmake an dieser Stelle ausfĂŒhrlich. Wenn alles passt und cmake alle Makefiles erstellt hat, geht es mit

make
sudo make install
Kompilieren

Nach dem Erzeugen der Build-Umgebung mit cmake kompiliert make den Quellcode und richtet Scan Tailor ein.

weiter, um Scan Tailor zu kompilieren und mit root-Rechten einzurichten.

Nach dem Aufruf von Scan Tailor erstellt man ein neues Projekt und fĂŒgt die zu bearbeitenden Scans hinzu. Das Programm akzeptiert dabei TIFF-, JPEG- und PNG-Dateien. Anschließend wĂ€hlt man aus, mit welchen Scans man beginnen möchte. Scan Tailor beherrscht die Stapelverarbeitung mehrerer Dateien, deshalb ĂŒbergibt man dem Programm gleich ganze Verzeichnisse. Im Auswahlfenster empfiehlt sich, die Option „Dpi korrigieren“ zu wĂ€hlen, wenn es sich um Scans mit unterschiedlichen Auflösungen handelt. Daraufhin lĂ€sst sich fĂŒr eine einzelne oder auch alle Bilddateien die gewĂŒnschte GrĂ¶ĂŸe in DPI angeben und mit „Übernehmen“ anwenden. Rechts in der Leiste zeigt Scan Tailor eine Vorschau, in der Mitte ist die aktuell ausgewĂ€hlte Datei zu sehen. Rechts oben listet das Programm die einzelnen Arbeitsschritte fĂŒr den Workflow auf.

ZunĂ€chst dreht man alle eingelesenen Scans, bis die Ausrichtung stimmt. Im nĂ€chsten Schritt des Workflows lassen sich die Dokumente in Einzelseiten zerlegen – das ist praktisch bei Scans aus BĂŒchern und Zeitschriften. Den Bund oder Knick findet Scan Tailor automatisch so zuverlĂ€ssig, dass nur selten eine manuelle Korrektur nötig ist. Nacheinander klickt man alle Seiten in der Vorschau an, um die Trennlinie zu setzen. Ein Klick auf den Pfeil im Workflow startet dann die Stapelverarbeitung. Der nĂ€chste Schritt „Ausrichten“ korrigiert eine eventuelle Schieflage der inzwischen aufgeteilten Einzelseiten. Mit blauen Anfassern lĂ€sst sich eine Seite am Raster ausrichten.

Passt hier alles, geht es mit „Inhalt auswĂ€hlen“ zum Ausschneiden des relevanten Seiteninhalts. Handelt es sich um Text, leistet auch hier die automatische Erkennung von Scan Tailor gute Dienste, bei grafischen Elementen muss man dagegen manchmal manuell nachhelfen. Dabei wird nur der reine Inhalt erfasst, die RĂ€nder werden im nĂ€chsten Schritt „RĂ€nder (Stege)“ gesetzt, wobei ÜberflĂŒssiges abgeschnitten wird. Das Angleichen aller Seiten passiert ĂŒber die SchaltflĂ€che „Anwenden auf“.

Dewarping

Mit „Dewarping“ bietet Scan Tailor eine Funktion zum Begradigen gescannter Seiten an, was insbesondere bei Buchseiten nĂŒtzlich ist.

Der letzte Schritt im Workflow, "Ausgabe", hĂ€lt interessante Einstellungen bereit, die das resultierende Bild beeinflussen. „Dewarping“ entzerrt Seiten, was bei fast allen Scans aus BĂŒchern nötig ist. Ein Wechsel in die entsprechende Registerkarte am rechten Rand legt ein Raster ĂŒber den Scan, das man durch Ziehen mit der Maus exakt auf den Seiteninhalt ausrichten kann. Das Ergebnis ist jeweils nach einem Wechsel in den Reiter „Ausgabe“ zu sehen. Die Option "Weiße Stege (RĂ€nder)" ĂŒbertĂŒncht unschöne schwarze RĂ€nder.

Die fertigen Dateien speichert Scan Tailor im Ausgabeverzeichnis im Format TIFF – das ist zwar nicht platzsparend, eignet sich aber gut fĂŒr die Weiterverarbeitung mit anderen Programmen. Die Texterkennung Tesseract-OCR [7] kann dieses Format beispielsweise einfach ĂŒbernehmen. Mit Hilfe des Tools gscan2pdf [8] lassen sich die TIF-Dateien in kompakte PDF-Dokumente ĂŒberfĂŒhren. Wer keine grafische OberflĂ€che braucht, ist stattdessen mit ImageMagick gut bedient, der Konsolenbefehl

convert datei1.tif datei2.tif datei3.tif datei4.tif datei.pdf

erzeugt im Nu aus den vier TIFF-Dateien ein PDF-Dokument. (lmd@ct.de [9]) (lmd [10])


URL dieses Artikels:
https://www.heise.de/-1787142

Links in diesem Artikel:
[1] https://www.heise.de/bilderstrecke/971904.html?back=1787142;back=1787142
[2] https://www.heise.de/bilderstrecke/971904.html?back=1787142;back=1787142
[3] http://software.opensuse.org/package/scantailor?search_term=Scan+Tailor
[4] http://scantailor.sourceforge.net/?q=en/node/3
[5] http://sourceforge.net/projects/scantailor/files/scantailor/0.9.11.1/scantailor-0.9.11.1.tar.gz/download
[6] http://sourceforge.net/apps/mediawiki/scantailor/index.php?title=Building_from_source_code_on_Linux_and_Mac_OS_X
[7] https://www.heise.de/tests/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html
[8] http://gscan2pdf.sourceforge.net
[9] mailto:lmd@ct.de
[10] mailto:lmd@heise.de