Een jaar na de publicatie van de Panama Papers is het sentiment over belastingconstructies en brievenbusfirma’s helemaal om­geslagen. Steeds meer politici en burgers beschouwen het ontdui­ken of ontwijken van belasting, inclusief witwassen, als onaccep­tabel. Klokkenluiders tonen zich bereid om uit de school te klap­pen en big data te lekken. Maar hoe maak je 2,6 terabytes aan ruwe data toegankelijk en visueel aantrekkelijk voor 400 journalisten en een miljoenenpubliek? Een inside story over het grootste datalek aller tijden.

Toen de anonieme klokkenluider John Doe een bericht stuurde naar een van de journalisten van de Süddeutsche Zeitung met de boodschap dat hij over data beschikte die hij graag wilde delen, kon hoofdprogrammeur Rigoberto Carvajal (‘Rigo’) in Costa Rica nog niet bevroeden dat hij aan de wieg zou staan van de grootste datalek aller tijden.

Ook kon hij niet weten dat hij begin mei 2015 samen met zijn collega, het hoofd van het datateam van het International Consortium of Investigative Journalists (ICIJ) zou afreizen naar München om de journalisten van de Duitse kwaliteitskrant te helpen bij het ontsluiten van de data. Dat hij vervolgens terug zou vliegen naar Washington met een verstopte en versleutelde harde schijf in zijn handbagage stond ook niet in de sterren geschreven.

Om de security op het vliegveld niet wijzer te maken, had Carvajal encryptiesoftware van TrueCrypt en VeraCrypt gebruikt. De harde schijf was zo geprepareerd dat deze op het eerste gezicht slechts versleuteld leek. In werkelijkheid stond er op de harde schijf naast de zichtbaar versleutelde drive met nepbestanden nog een drive, die onzichtbaar en versleu­teld was. Als Carvajal op de luchthaven onverhoopt door een security officer gedwongen zou worden zijn harde schijf aan te sluiten en een wachtwoord zou moeten opgeven, zouden via dat wachtwoord alleen de nepbestanden zichtbaar worden en niet de belangrijke onderzoeksdata. Encryptie is soms van levensbelang.

De Panama Papers vielen bij Carvajal niet helemaal rauw op zijn dak. Hij had al de nodige ervaring opgedaan met dergelijke vormen van onthullingsjour­nalistiek. Zo was hij in 2012 werkzaam voor het ICIJ als pro­grammeur en data-expert. Hij viel met zijn neus in de boter toen de organisatie data kreeg toegespeeld die afkomstig was van Portcullis Trustnet en Commonwealth Trust Limited, twee serviceproviders uit de offshore-industrie. Hij toverde de vlakke, eendimensionale Offshore Leaks Database toen om in een interactieve toegankelijke webapplicatie waarmee journalisten en het grote publiek gemak­kelijk konden zoeken.

“Alles wat wij doen moet verifieerbaar en reproduceer­baar zijn”

Reverse engineering
“Het was mijn eerste project voor de ICIJ en ik moest al mijn creativiteit aanwenden om twee databases, SQL en Access, te reconstrueren en samen te voegen. Je moet namelijk eerst de data goed begrijpen voordat je daad­werkelijk aan de slag kunt. Het was een mooi stukje reverse engineering”, zo blikt Rigo terug. Met de beschikbare Google Maps-API’s kon hij gemakkelijk geolokale informatie ontsluiten. Voor de ontsluiting van de Panama Papers gebruikte Carvajal onder meer integra­tiesoftware van Talend. Met behulp van de opensourcesoftware werd 2,6 TB aan ongestructureerde data geladen in een grafisch visualisatieplatform om informatie te ordenen en toegankelijk te maken.

Het ging in totaal om 11,5 mil­joen bestanden, waarvan 320.000 tekst­documenten, 1,1 miljoen beelden, 2,15 miljoen pdf’s, 3 miljoen excerpten uit relationele databases en 4,8 miljoen e- mails. Als je deze documentenberg van 3.200.000 kilo zou willen printen, zou je 80.000 bomen moeten kappen. Om de miljoenen gescande documenten door­zoekbaar te maken op tekst, ging Rigo op zoek naar intelligente OCR-software. Hiervoor stuitte hij op het Australische Nuix. Deze leverancier van onder meer forensische en e-discoverysoftware was bereid om de non-profitorganisatie ICIJ enkele gratis licenties te verstrekken.

Reproduceerbaar
Het ICIJ heeft een reputatie hoog te hou­den. Het verklaart volgens Carvajal de hoge werkethiek en strenge procedures binnen het consortium. “We kunnen ons eigenlijk geen enkele fout permitteren. Al mijn werk wordt gereviewed door een collega en vice versa. Alles wat wij doen moet verifieerbaar en reproduceer­baar zijn. Dit impliceert dat handmatig werk eigenlijk uit den boze is. Opmer­kelijk is dat aan de ontsluiting van het grootste datalek achter de schermen slechts drie programmeurs werkten: Carvajal werkte vanuit San José in Costa Rica, een collega vanuit Madrid en een andere collega zat in Duitsland. “Zo konden we de berg werk een beetje verdelen.” Het budget waarmee het ICIJ moet werken is beperkt en grotendeels afhankelijk van financiële steun van charitatieve instellingen en particuliere gif­ten.

“Open source stelde ons in staat om bestaande software naar eigen behoefte aan te passen. In de praktijk betekende dat vooral meer hogere niveaus van veiligheid en encryptie toevoegen in de communicatie, zoals versleutelde chats. Sommige specifieke applicaties hebben we zelf van scratch af aan gebouwd.”

Amazon
Het merendeel van het IT-budget is op­geslurpt door de 35 servers in de cloud die bij Amazon zijn besteld om de do­cumenten te verwerken en te indexeren. Zelf beschikte Carvajal over een meer dan drie jaar oude computer. Alleen de journalisten van de Süddeutsche Zeitung konden zich op enig moment een ‘super­ computer’ van een slordige 17.000 euro veroorloven, nadat ze eerder al twee computers met meer geheugen hadden moeten aanschaffen om de data-tsunami te kunnen verwerken.

Hoewel de data en metadata dus veilig werden opgeslagen en geback-upt in de Amazon S3-cloud bleef voorzichtigheid geboden. Bij het sturen van bestanden naar het interna­tionale netwerk van journalisten werd eveneens encryptie toegepast. Daarnaast werd ernstig rekening gehouden met het feit dat het ICIJ geldt als potentieel doel­wit voor DDoS-aanvallen. “Ook daar waren we dus op voorbereid.”

 

Ruim 6,4 miljoen bezoekers raadpleegden de Offshore Leaks Database

 

Verder bestond behoefte aan een veilig, afge­schermd versleuteld forum, waarop alle betrokkenen met elkaar konden communiceren. “Dat een van de journalisten per ongeluk een URL voor het veilig inloggen publiceerde, was even schrik­ken, maar via een ‘redirect’ konden we dat probleem snel oplossen. Dat de klokkenluider telkens incrementeel nieuwe plukken data doorspeelde, in plaats van alle data in één keer, was lastig, maar tegelijkertijd ook spannend.”

Persoonlijke missie
Naast de Panama Papers zijn ook de oudere databases van Offshore Leaks, Lux Leaks, Swiss Leaks en de Bahama Leaks nog door iedereen te raadple­gen. De databases dienen bij elk nieuw schandaal vaak als startpunt voor nader onderzoek.

Daar komen volgens Rigo in de nabije toekomst ongetwijfeld nog nieuwe verhalen uit voort. “De integra­tiesoftware en de big-dataplatformen die tegenwoordig beschikbaar zijn, hebben mij dagen programmeerwerk bespaard”, zo licht Carvajal toe, die dienstbaarheid hoog in het vaandel heeft staan. “Bij elk project probeer ik de journalisten maximaal te ondersteunen door ze uit te leggen hoe bepaalde tools werken, hoe je encryptie kunt toepassen op e-mails, harde schijven en bestanden en hoe je die vervolgens weer kunt ontsleutelen.

Onderzoeksjournalisten hoeven echt geen programmeur of nerd te zijn om hun werk goed te kunnen doen. Ik leg ze met alle plezier en geduld uit hoe een bepaalde tool of techniek werkt.” Het helpen en trainen van journalisten is zo uitgegroeid tot Rigo’s persoonlijke missie. “Het is mijn taak om data zo te ontsluiten dat journalisten en andere ge­ïnteresseerden hier optimaal mee kunnen werken.” Volgens de webstatistieken is hij hierin uitstekend geslaagd. Sinds de publicatie van de Panama Papers raad­ pleegden namelijk meer dan 6,4 miljoen bezoekers de overkoepelende Offshore Leaks Database. Zij waren goed voor ongeveer 50 miljoen pageviews.

REAGEREN

Plaats je reactie
Je naam