PDF-Dokumente automatisiert vergleichen

Verschiedene PDF-Versionen kann man mit spezialisierten Tools vergleichen. Sie finden Änderungen auch in dicken Verträgen und markieren die Unterschiede.

In Pocket speichern vorlesen Druckansicht

(Bild: Gerd Altmann_Pixabay)

Lesezeit: 7 Min.
Inhaltsverzeichnis

Wenn Dokumente von mehreren Beteiligten geprüft und optimiert werden müssen, wandern immer wieder PDFs mit überarbeiteten Versionen hin und her. Doch wurden alle Änderungswünsche tatsächlich berücksichtigt? Ist am Ende alles korrekt oder haben sich neue Fehler eingeschlichen? Hat der Bearbeiter noch zusätzliche Optimierungen vorgenommen?

Wer im Laufe solcher mehrstufigen Prozesse die Kontrolle übers Ergebnis behalten möchte, braucht wahre Adleraugen und viel Zeit – oder schlaue Software. Einfache Tools kosten nichts, effiziente Branchenlösungen tausend Euro und mehr. Auch Adobes PDF-Editor Acrobat DC Pro besitzt eine entsprechende Funktion. Wir erklären, worauf es bei der Suche nach einem geeigneten Werkzeug ankommt, und stellen eine kostenlose (DiffPDF) sowie eine preiswerte Lösung (PDiff Express) vor.

Zwei Dokumente zu vergleichen, ist eigentlich sehr simpel – aber nur, wenn beide im Originalformat vorliegen. Zwei DOCX-Versionen etwa lädt man per "Überprüfen/Vergleichen" in Word, das zuverlässig sämtliche Änderungen markiert. Für Prüfprozesse mit mehreren Beteiligten konvertiert man das Dokument aber normalerweise ins Standard-Austauschformat PDF, weil dieses auf jedem System eine layoutgetreue Darstellung garantiert. Das Dokument lässt sich dann mit einem einfachen Betrachter mit Kommentarfunktion prüfen (Acrobat Reader, Foxit Reader, PDF-XChange und andere). Der Ersteller pflegt die gewünschten Änderungen wiederum mit der Original-Software ein, optimiert selbst noch ein wenig, generiert eine neue PDF-Version und schickt diese in die nächste Prüfungsrunde.

Der Prüfer muss nun das erste mit dem zweiten PDF vergleichen, um das Ergebnis zu kontrollieren – maschinelle Hilfe reduziert Aufwand und Fehlerrate erheblich. Doch Vorsicht: Weil PDF ein sehr komplexes Format ist und jeder PDF-Erzeuger Grafiken, Bilder und Text auf seine eigene Art verarbeitet, können identisch aussehende Dokumente komplett unterschiedlichen PDF-Code enthalten – was einen einfachen maschinellen Abgleich wie bei den Ursprungsformaten erschwert oder im schlimmsten Fall unmöglich macht.

Während etwa der PDF-Export aus Word oder InDesign Text-, Grafik- und Bildobjekte enthält, besteht ein PDF vom Scanner lediglich aus Pixelbildern. Die hier vorgestellten Tools funktionieren nur zuverlässig, wenn das Dokument maschinenlesbaren Text enthält, teurere Lösungen überwinden auch Medienbrüche.

Mehr Infos

c't 1/2021

Dieser Artikel stammt aus c’t 1/2021. Darin beraten wir Sie bei der Auswahl und Einrichtung von Netzwerkspeichern für zu Hause und testen passende NAS-Leergehäuse. In einem weiteren Schwerpunkt beleuchten wir die Sicherheit von Krankenkassen-Apps und Kartenterminals und zeigen, wie Sie Android-Apps für E-Health selbst analysieren können. Ebenfalls brisant: Ein Serverfehler ermöglichte Identitätsklau bei Hostern und die Schufa will Privatkonten durchleuchten. Wir haben Tastaturen für Vielschreiber getestet, Telefonanlagen fürs Homeoffice und vieles mehr. c't 1/2021 ist ab sofort im Heise-Shop und am gut sortierten Zeitschriftenkiosk erhältlich.