Kommentar von Michael Hunger, Neo4j Pandora Papers – so funktioniert die Analyse des Datenleaks

Autor / Redakteur: Michael Hunger / Nico Litzel

Die Pandora Papers sind nicht nur ein Glanzstück des investigativen Journalismus, sondern zeigen auch, was in Sachen Datenjournalismus und Data Science möglich ist. Das Internationale Netzwerk Investigativer Journalisten (ICIJ) setzt dabei auf einen Mix aus ML-Kits, Visualisierungs-Tools und Graphtechnologie.

Firmen zum Thema

Der Autor: Michael Hunger ist Developer Relations bei Neo4j
Der Autor: Michael Hunger ist Developer Relations bei Neo4j
(Bild: Neo4j)

Das Datenleak der Pandora Papers umfasst vertrauliche Unterlagen von 14 Finanzdienstleistern, Banken und Anwaltskanzleien, die im Auftrag ihrer Kunden Treuhandgesellschaften, Stiftungen und andere Körperschaften in Niedrig- oder Nichtsteuerländern gründen. Ziel der Offshore-Steueroasen ist es, die Identität der Eigentümer zu verschleiern und Gelder an den Aufsichtsbehörden vorbeizuschmuggeln. Unter den rund 27.000 Unternehmen und 29.000 Beneficial Owners finden sich auch 330 Politiker und Amtsträger aus fast 100 Ländern sowie Prominente wie Pep Guardiola, Ringo Starr oder Claudia Schiffer. Das älteste Dokument ist von 1970, die Mehrzahl der Datensätze stammt jedoch aus dem Zeitraum von 1996 bis 2020.

Herausforderung: 11,9 Millionen unstrukturierte Daten

Unstrukturiert und heterogen: Zusammensetzung der Pandora Papers
Unstrukturiert und heterogen: Zusammensetzung der Pandora Papers
(Bild: Neo4j / ICIJ)

Die Untersuchung des 2,94 Terabyte großen Datenleaks stellt die bislang größte journalistische Zusammenarbeit der Welt dar. Mehr als 600 Journalisten von 150 Publikationen aus 117 Ländern beteiligten sich an der Recherche und Aufarbeitung. Die größte Herausforderung bei der Analyse: Die über 11,9 Millionen Datensätze waren weit gehend unstrukturiert. Mehr als die Hälfte (6,4 Millionen) lag als Text-Dokument vor – darunter mehr als vier Millionen PDF-Dateien, von denen einige mehr als 10.000 Seiten umfassten. Zu den Dokumenten gehörten Reisepässe, Kontoauszüge, Steuererklärungen, Gründungsurkunden, Immobilienverträge und Due-Diligence-Fragebögen. Zudem galt es, 4,1 Millionen Bilder und E-Mails auszuwerten, fast eine halbe Million Tabellenkalkulationen sowie Präsentationen und Audio- und Videodateien.

Die Struktur der Daten folgte außerdem keiner einheitlichen Linie und unterschied sich je nach Offshore-Anbieter. Manche Dokumente waren nach Kunden organisiert, andere nach den jeweiligen Standorten der Finanzdienstleister. Ein einziges Dokument konnte den E-Mail-Verkehr von mehreren Jahren beinhalten. Unterlagen gab es sowohl in digitalisierter Form, aber auch als Scans von Papierakten. In einigen Fällen mussten Tabellen erst rekonstruiert werden, um sie für die Analyse nutzen zu können. Ähnlich wurde auch bei handschriftlichen Notizen verfahren. Da die Dokumente zudem in unterschiedlichen Sprachen verfasst wurden – von Englisch und Spanisch über Russisch und Arabisch bis hin zu Koreanisch – war eine enge Koordination zwischen den weltweiten ICIJ-Partnern nötig. Insgesamt lagen nur vier Prozent der Dateien als strukturierte Daten vor, darunter Tabellenkalkulationen, csv-Dateien und einige dbf-Dateien.

Open-Source-Technologie-Stack

Das ICIJ verbrachte mehr als ein Jahr damit, die Daten zu strukturieren und für die Recherchearbeit der Journalisten aufzubereiten. Möglich wurde dies erst durch einen Mix aus unterschiedlichen Technologien. Dazu gehören:

  • die ICIJ-eigene Plattform Datashare, um Entitäten zu extrahieren, die Daten zu validieren und die Informationen mit den Journalisten weltweit zu teilen. Dabei entfernten die Data Scientists des ICIJ u. a. Duplikate und fassten die Daten in einer Master-Tabelle zusammen.
  • Phyton Data Science-Toolkits, um die Datenextraktion und -strukturierung so weit wie möglich zu automatisieren. In komplexeren Fällen kamen Machine-Learning-Verfahren und Analyse-Tools zum Einsatz, darunter die Software Fonduer und Scikit-learn, mit der relevante Abschnitte aus längeren Dokumenten identifiziert und isoliert werden konnten.
  • die native Graphdatenbank Neo4j in Verbindung mit Linkurious, um die Daten zu visualisieren und die Beziehungen zwischen den Daten – und damit das komplexe Netzwerk an Offshore-Accounts – abfragen zu können

Datenmodell im Graphen: Entity (z. B. Briefkastenfirma), Mittelsmann (z. B. Anwaltskanzlei), Adresse und Kontaktperson
Datenmodell im Graphen: Entity (z. B. Briefkastenfirma), Mittelsmann (z. B. Anwaltskanzlei), Adresse und Kontaktperson
(Bild: Neo4j / ICIJ)

Erst nach dieser Strukturierung und Visualisierung konnten die Journalisten mit der eigentlichen investigativen Recherche beginnen. „Wir setzen Graphdatenbanken ein, um Verbindungen und Zusammenhänge aufzuspüren, die nicht offensichtlich sind“, erklärt Emilia Díaz Struck, Research Editor beim ICIJ und verantwortlich für die Region Lateinamerika. „Stößt man auf einen Stakeholder in einem Datensatz, ist oft nicht ersichtlich, ob es sich dabei um die gleiche Person handelt, die man bereits in einem anderen Datensatz ausgemacht hat. Im Graphen sehen wir diese Verbindungen sofort. Gerade bei der riesigen Datenmenge ist das Risiko hoch, etwas zu übersehen. Graphdatenbanken und ML helfen uns, Zusammenhänge aufzudecken, für die wir bei der manuellen Recherche wahrscheinlich Jahre bräuchten.“

Graphtechnologie im Kampf gegen Betrug und Geldwäsche

Graphdatenbanken kommen im Finanzsektor immer stärker zum Einsatz, wenn es darum geht, Betrugsfälle aufzudecken und regulatorische Auflagen zu erfüllen. Insbesondere die Bekämpfung von Geldwäsche (Anti-Money-Laundering, ALM) ist ein massives, globales Problem. Banken und sogenannte Verpflichtete im Nichtfinanzsektor (z. B. Immobilienbranche, Casinos, Juweliere, Auto- und Edelmetallhändler, Rechtsanwälte und Notare) unterliegen strengen Auflagen und sind dazu verpflichtet, verdächtige Transaktionen oder Geschäfte zu melden. Herkömmliche AML- und Compliance-Lösungen können jedoch mit der Dynamik krimineller Aktivitäten kaum noch mithalten.

Graphtechnologie bringt hier die nötige Flexibilität und Schnelligkeit. Soziale Netzwerkanalysen und Graph-Algorithmen sind in der Lage, verdächtige Muster zu erkennen, kriminelle Gruppen zu identifizieren und großangelegte Betrugskampagnen frühzeitig zu stoppen. Im Gegensatz zu einer relationalen Datenbank erfolgt die Abfrage in einer Graphdatenbank nahezu in Echtzeit – ein wesentlicher Vorteil für Compliance-Officer, die Verdachtsfälle so zeitnah untersuchen und an die entsprechenden Behörden übermitteln können.

Im Fall der Pandora Papers kündigte das ICIJ an, den gesamten Datensatz in wenigen Wochen über die Offshore-Leaks-Datenbank der Öffentlichkeit zur Verfügung zu stellen. Einen Einblick in die finanziellen Offshore-Aktivitäten einiger illustren Persönlichkeiten erhält man bereits jetzt, im Mini-Datensatz der sogenannten Power Players.

Artikelfiles und Artikellinks

(ID:47733916)