Passwort vergessen?  |  Anmelden
 |  Passwort vergessen?  |  Anmelden

Donnerstag, 18. Mai 2017, Ausgabe Nr. 20

Donnerstag, 18. Mai 2017, Ausgabe Nr. 20

Panama-Papiere

Auswertung offenbart große Mängel

Von Christiane Schulzki-Haddouti | 29. April 2016 | Ausgabe 17

Annette Brückner, Expertin für Big Data, kritisiert, dass die Auswertung dieser geleakten Dokumente sehr subjektiv sei. Das Ergebnis hänge ab von Absichten und Fähigkeiten der Fragesteller.

BU-Panama
Foto: Frank May/dpa

Was sich hinter Briefkastenfirmen verbirgt, werde durch die Panama-Papiere nicht deutlich, sagen Kritiker.

Die journalistische Auswertung der Panama Papers stellt Journalisten vor eine neue Herausforderung: aus dem Heuhaufen von 11,5 Mio. Dokumenten im Umfang von 2,6 TByte die Stecknadel, also die erzählenswerte Geschichte, zu finden. Die dabei angewandte Methode halten Experten für Informationsanalysen jedoch nicht für optimal.

Annette Brückner, die große Datenauswertungen für parlamentarische Untersuchungsausschüsse und für Sicherheitsbehörden begleitet hat, erklärt, dass mit der Methode, die von den 400 Journalisten weltweit angewendet worden sei, „immer nur die Hypothese verifiziert werden kann, die man vorher aufgestellt hat“.

Die geleakten Daten lagen laut Süddeutscher Zeitung (SZ) zunächst als E-Mails, Bilder, Datenbankformate, Word-Dokumente, Power-Point-Dateien, Excel-Dateien und eingescannte Dokumente im PDF-Format vor. Die Scans wurden dann mit einem optischen Erkennungssystem bearbeitet, um den darin enthaltenen Text in maschinenlesbaren Text umzuwandeln. In einem weiteren Schritt wurden die Dokumente in eine Datenbank überführt und indexiert. Dafür wurde das Programm Nuix verwendet, das auch von Ermittlungsbehörden eingesetzt wird. Das System indexierte den Text und erschloss die Metadaten, aus denen hervorgeht, wer die Datei wann erstellt und geändert hat.

Ein Drittel der Dateien konnte danach als Duplikat erkannt und aussortiert werden. Die Journalisten griffen anschließend über eine Suchmaske auf die in einer Datenbank erfassten Dateien zu. Die Ergebnisse zeigten, in welchen Dateien ein Name auftauchte. Die Analyse der Daten erfolgte damit weitgehend händisch. So nutzten die Journalisten beispielsweise Listen der Parteispenden-Affäre oder die UN-Sanktionsliste.

Annette Brückner hält eine derartige Auswertung für „eine sehr subjektive Angelegenheit, da sie abhängig von den Absichten und Fähigkeiten des Fragestellers ist“.

Eine professionelle Herangehensweise bedeutet, dass Journalisten schon am Anfang definieren müssten, wie weit sie gehen wollen. Geht es nur darum zu zeigen, dass Personen in einem anderen Land Firmen gründen – oder geht es auch darum zu zeigen, wie das System der Steuerminderung global funktioniert?

Semantische Analysen hätten zu besseren Ergebnissen geführt

Will man diese Frage beantworten, müssen weitere Informationen beschafft werden. Problematisch dürfte sein, dass in den geleakten Dokumenten die Namen von Prominenten wohl nicht enthalten sind – falls Offshore-Firmen über Mittelsmänner gegründet wurden, um Besitzverhältnisse zu verschleiern. Der Agent Werner Mauss etwa konnte nur über ein Foto im gefälschten Reisepass identifiziert werden.

Christian Nietner, Experte für Machine-Learning-Algorithmen, sagt, dass „ein wesentlicher Teil der Auswertung im Aufdecken und Validieren von unbekannten und eventuell auch nicht offensichtlichen Mustern und Zusammenhängen in den Daten besteht“. Mit Algorithmen zur Mustererkennung könnten aber automatisiert semantische, temporale, geografische oder thematische Zusammenhänge in Texten und Bildern erkannt werden. Diese würden grafisch in Clustern sichtbar gemacht werden. 

Ein wichtiger weiterer Auswertungsschritt innerhalb der Auswertungsmaschine wäre gewesen, so Annette Brückner, die relevanten Inhalte aus den erfassten Volltexten zu extrahieren. Ein auf semantische Auswerteverfahren gestützter Prozess könnte Personen- und Firmennamen, Adressangaben, Telefonnummern, Steuernummern und andere Objekte wie etwa Frachtcontainer automatisch herausfinden. Damit könnten in einem weiteren Schritt Beziehungen zwischen verschiedenen Personen über Adressen, Bankkonten, Kreditkartennummern und Mittelsmänner grafisch dargestellt werden.

Dieser Datenbestand könnte schließlich auf bestimmte Regionen, etwa Deutschland, begrenzt werden, meint Brückner.

 CHR. SCHULZKI-HADDOUTI

stellenangebote

mehr