Pandora Papers: Über 600 Journalisten durchsuchten 2,94 Terabyte an Daten

Die Analyse von fast 12 Millionen Dateien enthüllt nicht nur erneut Offshore-Steuerflüchtige weltweit, sondern treibt auch den Datenjournalismus voran.

131

(Bild: ESB Professional/Shutterstock.com)

04.10.2021, 17:10 Uhr

Lesezeit: 5 Min.

Von

Stefan Krempl

Nach den "Panama Papers" zeigen aktuell Erkenntnisse aus dem "Pandora" genannten Leak, wie die Mächtigen, Reichen und Schönen der Welt ihr Geld über Offshore-Steueroasen schleusen. Allein über 330 Politiker und Amtsträger aus fast 100 Ländern finden sich in den Dokumenten, darunter Tschechiens Staatschef Andrej Babiš, der frühere britische Premierminister Tony Blair und seine Frau sowie enge Freunde von Russlands Präsident Wladimir Putin. Prominente wie Pep Guardiola, Ringo Starr und Julio Iglesias tauchen ebenfalls auf.

Ermöglicht hat die Enttarnung der "Optimierer" von Steuersystemen ein wohl bislang einmaliges Stück Datenjournalismus. Bei den 11,9 Millionen Datensätze der Pandora Papers handelt es sich um Leaks aus 14 verschiedenen Offshore-Dienstleistern in einem Durcheinander von Dateien, Formaten und Medien, darunter auch die gute alte Tinte auf Papier.

Unter dem Dach des International Consortium of Investigative Journalists (ICIJ) waren mehr als 600 Pressevertreter von 150 Medienorganisationen aus 117 Ländern daran beteiligt, sinnvolle Informationen aus dem Datenwust zu ziehen. Das ICIJ spricht von der weltweit bislang größten journalistischen Kollaboration, an der hierzulande etwa die "Süddeutsche Zeitung", der WDR und der NDR beteiligt waren. Bei den ersten, 2013 vom ICIJ publizierten "Offshore-Leaks" durchforsteten 86 Pressevertreter aus 46 Ländern ein Archiv mit 260 Gigabyte.

Datenwust

Das Konsortium investigativer Journalisten spricht angesichts der 2,94 Terabyte an Daten von einer "massiven Herausforderung". Die knapp 12 Millionen Datensätze, die vor allem aus dem Zeitraum zwischen 1996 und 2020 stammten, waren weitgehend unstrukturiert. Unter rund 6,4 Millionen Textdokumenten sind mehr als vier Millionen PDF-Dateien und knapp 1,8 Millionen Word-Dokumente, von denen einige mehr als 10.000 Seiten umfassen.

Videos by heise

Zu den Akten gehörten Reisepässe, Kontoauszüge, Steuererklärungen, Gründungsunterlagen von Unternehmen, Immobilienverträge und Bögen zu den Sorgfaltspflichten, denen Finanzhäuser nachkommen müssen. Zudem waren mehr als 4,1 Millionen Bilder und E-Mails in den Lecks enthalten. Tabellenkalkulationen machten vier Prozent der Dokumente aus, das sind mehr als 467.000. Zu den Unterlagen gehörten auch Diashows sowie Audio- und Videodateien.

Bei den Panama Papers stammten die Dateien alle von einer Firma, der inzwischen nicht mehr am Markt aktiven Kanzlei Mossack Fonseca. Die jetzt betroffenen 14 Offshore-Anbieter organisierten die Informationen laut dem ICIJ alle unterschiedlich: Einige ordneten die Dokumente nach Kunden an, andere nach verschiedenen Büros. Wieder andere hatten überhaupt kein offensichtliches System. Ein einziges Dokument enthielt manchmal E-Mails und Anhänge aus mehreren Jahren.

Einige Anbieter digitalisierten ihre Unterlagen und strukturierten sie in Tabellenkalkulationen, andere führten Papierakten, die eingescannt wurden. Einige PDF-Dateien enthielten Tabellenkalkulationen, die rekonstruiert werden mussten. Die Dokumente waren auf Englisch, Spanisch, Russisch, Französisch, Arabisch, Koreanisch und in anderen Sprachen verfasst, was eine umfangreiche Koordination zwischen den Partnern erfordert habe.

Datenanalyse

In den Pandora Papers steckten letztlich Angaben über mehr als 27.000 Firmen und 29.000 sogenannte wirtschaftlich Berechtigte von elf Anbietern. Das sind bei den letzteren mehr als doppelt so viele, wie sich zuvor in den Panama Papers identifizieren ließen.

Wenn Tabellenkalkulationen vorlagen, entfernten die Beteiligten nach eigenen Angaben Duplikate und fassten sie in einer Master-Tabelle zusammen. Bei PDF- oder Dokumentdateien verwendeten sie Programmiersprachen wie Python, um die Datenextraktion und -strukturierung so weit wie möglich zu automatisieren. In komplexeren Fällen nutzte das ICIJ maschinelles Lernen und andere Werkzeuge wie Fonduer und Scikit-learn, um bestimmte Formulare aus längeren Dokumenten zu identifizieren und zu trennen.

Bei handschriftlichen Notizen mussten die Informationen manuell extrahiert werden. Im Anschluss erstellte das Konsortium Listen, die die wirtschaftlichen Eigentümer mit den Unternehmen verknüpften, die sie in bestimmten Ländern besaßen. Nach der Strukturierung der Daten halfen Grafikplattformen wie Neo4J und Linkurious, um Visualisierungen zu erstellen und sie durchsuchbar zu machen. Dies ermöglichte es den Reportern, Verbindungen zwischen Personen und Firmen über verschiedene Anbieter hinweg zu untersuchen.

Um besonders interessante Datensätze zu identifizieren, glich das ICIJ die neuen Informationen mit anderen Datensätzen wie Sanktionslisten, früheren Leaks, öffentlichen Unternehmensdaten sowie Listen von Milliardären und politischer Führer ab. Der schwedische Partner SVT fertigte Tabellen mit Daten an, die aus enthaltenen Pässen stammten. Das ICIJ stellte den beteiligten Medien die Datensätze dann via Datashare zur Verfügung, einem im Auftrag des Bündnisses eigens entwickelten Recherche- und Analysetool. Tipps konnten die Partner über die spezielle Messaging- und Social-Media-Plattform I-Hub austauschen.