PDF-Dokumente automatisiert vergleichen

Seite 3: Interaktiv mit PDiff

Inhaltsverzeichnis

Darauf hat sich die Hamburger Firma CSci (Leitfaden PDFs vergleichen) spezialisiert: Deren Branchenlösungen arbeiten auf Basis von Adobes PDF Library – auf Wunsch auch automatisiert via Kommandozeile. Sie dokumentieren die Unterschiede in detaillierten Reports, mit denen man strukturiert weiterarbeiten kann. Die Software PDiff hat sich auf die reine Textprüfung spezialisiert und zeigt Änderungen unabhängig vom Layout an; ein visueller Abgleich findet nicht statt. Der günstige Ableger PDiff Express (Download) kostet 40 Euro und ist damit auch für Privatanwender und kleinere Firmen interessant. Er nutzt unter Windows die Open-Source-Bibliothek PDFium und auf dem Mac die PDF-Engine des Betriebssystems (Quartz). Dafür bringt er bereits sehr gute Navigations- und Vergleichshilfen sowie eine ungemein praktische Reportfunktion mit, die sich für 20 Euro freischalten lässt.

PDiff zeigt Unterschiede sowohl im Layout als auch im extrahierten Text. Hier kann man rasch interaktiv von Markierung zu Markierung springen.

Die Ansicht ist dreigeteilt: In die oberen Fenster lädt PDiff per "Datei/Dokument A (beziehungsweise B) öffnen" die beiden Dokument-Varianten. Anschließend extrahiert es die Texte und blendet sie darunter strukturiert in einem separaten Fenster ein. Unterschiede markiert PDiff sowohl in den beiden Dokumentfenstern als auch in den Nur-Text-Ansichten, wobei es farblich zwischen Textersetzung und -ergänzung unterscheidet. Alle Fenster werden miteinander synchronisiert: Bei Klick auf ein Wort in der Layout-Ansicht von Dokument A markiert die Software auch das entsprechende Wort in Dokument B sowie in den darunter eingeblendeten Text-Extrakten.

Beim Analysieren und raschen Erfassen der Unterschiede helfen die Optionen aus dem Menü "Ansicht". Den Textextrakt können Sie via "Ansicht/Nur Abweichungen zeigen" oder Strg+2 auf die abweichenden Passagen reduzieren, per Strg+3 auf die übereinstimmenden. Strg+1 stellt den gesamten Textfluss wieder her. Trennstriche werden als Unicode-Zeichen wiedergegeben, sehr nützlich ist auch die Option "Steuerzeichen einblenden", dank der sich gut nachvollziehen lässt, ob ein Leerzeichen tatsächlich fehlt oder zwei Wörter durch Spationierung nur zu eng zusammengerückt sind. "Textfluss anzeigen" wiederum visualisiert, welche Textobjekte eine PDF-Seite enthält und in welcher (Lese-)Reihenfolge diese angeordnet sind. Diese Darstellung kann helfen, wenn PDiff Unterschiede hervorhebt, die Sie zunächst nicht nachvollziehen können.

PDiff verewigt seine Erkenntnisse in einem annotierten PDF: So können alle Beteiligten in einem beliebigen PDF-Betrachter weiterarbeiten.

Anders als DiffPDF exportiert PDiff das Ergebnis seiner Analysen nicht als Pixelbild mit Markierungen, sondern als PDF mit Kommentaren ("Datei/Annotierte PDF speichern"). Dieses können Sie in einem beliebigen PDF-Betrachter öffnen und via Kommentarliste Schritt für Schritt abarbeiten – wobei Sie korrekte Änderungen abhaken oder ganz löschen können. Dabei signalisieren Titel und Markierungsfarbe auf den ersten Blick, ob Text ergänzt oder ersetzt wurde, und das Kommentarfeld dokumentiert den genauen Wortlaut in der alten und der aktuellen Version.