PDF-Formulare im Griff: Daten auslesen und verarbeiten
PDF-Formulare versprechen digitale Abläufe, die aber allzu oft in Medienbrüchen enden. Mit Open-Source-Tools lassen sich die Daten automatisiert auslesen.
(Bild: Ulrike Weis / KI / heise medien)
- Tomas Jakobs
Eine Mail trudelt ein, im Anhang ein PDF-Formular zum Ausfüllen. Vermeintlich digital, tatsächlich aber der Startschuss für eine analoge Tragödie. Viele PDFs sehen zwar aus wie Formulare, lassen sich aber nicht am Bildschirm ausfüllen, weil sie keine interaktiven Felder besitzen. Also wird gedruckt, per Hand ausgefüllt, wieder eingescannt oder fotografiert und zurückgeschickt.
So mutiert das einst aus Vektoren und Text bestehende Dokument zum reinen Pixelbild – oder zum PDF mit eingebettetem Pixelbild, was auch nicht besser ist. Denn zum einen fallen die gerasterten Varianten deutlich größer aus als das Original, zum anderen lässt sich ihr Inhalt nur noch per Umweg über Optical Character Recognition (OCR) maschinell auslesen. Sprich: Das ist das Gegenteil eines gelungenen digitalen Workflows.
- Mit interaktiven PDF-Formularen lassen sich Daten unkompliziert erfassen, aber nur schwer weiterverarbeiten.
- Ein konsequent digitaler Workflow gelingt mit den Open-Source-Tools pdfcpu, jq und cURL: vom Extrahieren der Daten ĂĽber das Erstellen einer CSV-Datei bis hin zur Ăśbertragung an ein REST-API.
- Wir skizzieren anhand von Codebeispielen, wie sich ein solcher Workflow umsetzen lässt.
Doch selbst interaktive PDF-Formulare, die wie vorgesehen am Rechner ausgefüllt und zurückgeschickt wurden, enden häufig als Karteileichen oder bei einer Bürokraft zum Abtippen. Oft mangelt es an Wissen oder geeigneter Software, um die darin enthaltenen und bereits strukturierten Informationen auszulesen und zu verarbeiten. Gängige Dokumentenmanagementsysteme oder kostenlose PDF-Betrachter können die Paare aus Formularfelddefinition und eingegebenem Wert in der Regel nicht exportieren. Editoren von Acrobat und Foxit exportieren zwar prinzipiell die Daten, sind aber teuer, zwingen zum Abo und ermöglichen keinen durchgehend automatisierten Workflow. Auf Automatisierung spezialisierte Serversysteme sind noch teurer und kommen deshalb für kleinere und mittelgroße Firmen oft nicht infrage.
Das war die Leseprobe unseres heise-Plus-Artikels "PDF-Formulare im Griff: Daten auslesen und verarbeiten". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.