In 2016 werden de FAIR Principles voor het gebruik van data gepubliceerd door een erudiet gezelschap in het toonaangevende tijdschrift Nature. Deze dataprincipes worden nu doorgevoerd in het hele Europese wetenschappelijke domein, maar ze zijn ook bijzonder behulpzaam bij het realiseren van betrokkenheid en verantwoordelijkheid van medewerkers.

Daarnaast wordt in de slipstream van het doorvoeren van deze principes de aandacht gevestigd op het belang van kwaliteit. Met name in verband met de introductie van AI, waarbij datakwaliteit essentieel is voor succes. Immers, anders geldt: garbage in, garbage out.

De CIO’s in Nederland zijn inmiddels de boardroom binnengedrongen en hebben in de afgelopen vijftien jaar hun positie verstevigd. Maar de ICT is meer business as usual geworden en de data, big en small, heeft zijn opwachting gemaakt.

Terwijl de datarevolutie hier en daar nog volop woedt, dringt zich nu de vraag op hoe we data maximaal kunnen laten renderen, hoe we zorgen dat we data ‘niet voor niets’ bewaren – het is tenslotte niet gratis allemaal – en hoe we iedereen op de werkvloer zich ervan bewust kunnen laten worden dat wat zij met data doen van belang is voor het hele bedrijf en mogelijk voor de continuïteit ervan in de nabije toekomst.

Hoewel de term CDO nieuwer is dan die van CIO, lijkt de rol van een information-officer inhoudelijk belangrijker dan de rol van een data-officer die zich om de dataprocessen bekommert. Data is immers het middel naar een hoger doel: iets uit data leren, data meerwaarde laten krijgen en datagebruik voor artificial intelligence. Maar what’s in a name? De term CDO benadrukt natuurlijk wel het verworven inzicht dat data essentieel is. En dat is winst.

De AI-toepassingen van de toekomst worden gevoed met de data die we nu verzamelen

Meerwaarde creëren uit data kan veel omvatten. Hier beperken we ons tot de generieke methodologie waarop anderen kunnen voortbouwen. De noodzakelijke, maar niet per se voldoende voorwaarden waaraan data, dataopslag en beheer moeten voldoen: de FAIR Principles.

De letters FAIR vormen een acroniem dat staat voor:

  • Findable; het kunnen vinden van data.
  • Accessible: het toegankelijk hebben of maken van data in verschillende gradaties.
  • Interoperable: het zo veel mogelijk door machines herkenbaar maken van data, voor automatische herkenning en inzet van data en het verbinden van informatie.
  • Re-usable: het (zo mogelijk bij de start al) herbruikbaar maken van data.

De FAIR Principles zijn ooit gepubliceerd in Nature. Daarbij werden de principes geformuleerd en werd gemotiveerd waarom ze de moeite van het navolgen waard zijn. De term FAIR Principles geeft aan dat het om uitgangspunten gaat. De implementatie daarvan kan per domein en context verschillend zijn. Natuurlijk zit ook hier de ‘devil in the details’, maar aan de implementatie van de principes wordt alom hard gewerkt.

Zo heeft DANS recent een subsidie van tien miljoen euro ontvangen voor het project FAIRsFAIR. Binnen dit project wordt gewerkt aan implementatieregels en -processen om de FAIR-doelen in Europa te bereiken: vruchtbare herbruikbaarheid van (vooral wetenschappelijke) data.

FAIR-implementaties

Bij de uitwerking van de Principles ontstonden al snel implementatie-elementen die per principe genummerd zijn.

Findable

Als voorbeeld de toegankelijkheid. Data moet toegankelijk zijn, maar zoals gezegd niet voor iedereen en niet tegen elke prijs. Zo mogen patiëntgegevens alleen door een beperkte groep medici gelezen worden (‘on a need-to-know’-basis). Een geheel legitieme beperking die wel met de data beschreven moet worden. Ook kan het zijn dat aan het gebruik kosten zijn verbonden of dat aan licentievoorwaarden moet worden voldaan. De nadere omschrijving van dit soort details is als volgt:

  • F1. Aan (meta)data wordt een wereldwijd unieke en persistente identifier toegekend.
  • F2. De data wordt voorzien van rijk beschreven metadata die de aard en eigenschappen van de data beschrijft. (Zie ook R1)
  • F3. De metadata omvat duidelijk en expliciet de genoemde identifier van de data die ze beschrijft.
  • F4. De (meta)data is geregistreerd en/of geïndexeerd in een doorzoekbare data-opslagvoorziening.

Accessible

Zodra een gebruiker de gewenste data heeft gevonden moet bekend zijn hoe de data kan worden bereikt, inclusief bepalingen rond authenticatie en autorisatie.

  • A1. (Meta)data is te verkrijgen via hun identifier, door middel van een standaardcommunicatie(internet)-protocol.
  • A1.1 Het protocol is open, gratis en universeel implementeerbaar.
  • A1.2 Het protocol staat een authenticatie- en autorisatieprocedure toe, als dat nodig mocht zijn.
  • A2. Metadata is toegankelijk zelfs als de data zelf dat niet of niet meer is.

Interoperable

De data moet vaak geïntegreerd kunnen worden met andere data. Verder moet de data kunnen werken in toepassingsprogramma’s of in workflows voor analyse (of BI), opslag en behandeling (processing).

  • I1. (Meta)data gebruikt een geformaliseerde, toegankelijke, gedeelde en breed toegepaste taal voor kennisrepresentatie.
  • I2. (Meta)data gebruikt vocabulaires die zelf ook de FAIR Principes volgen.
  • I3. (Meta)data omvat gekwalificeerde verwijzingen naar andere (meta)data.

Reusable

Het uiteindelijke doel van de FAIR Principles is om het hergebruik van data te vergemakkelijken en te optimaliseren. Om dit te bereiken moet de data goed omschreven zijn, zodat resultaten die ermee zijn verkregen zo nodig kunnen worden gereproduceerd en/of zodat data gecombineerd kan worden in nieuwe omgevingen en voor nieuwe toepassingsdomeinen. R1. Meta(data) zijn rijk omschreven met een veelheid aan accurate en relevante attributen.

  • R1.1. (Meta)data wordt gepubliceerd met een duidelijke en toegankelijke gebruikslicentie.
  • R1.2. (Meta)data omvat een duidelijke beschrijving van de herkomst van de data en/of de wijze waarop deze verkregen is.
  • R1.3. (Meta)data voldoet aan domeinrelevante standaarden.

Zo hebben de FAIR Principles dus betrekking op drie typen data:

  1. Data (of digitale objecten).
  2. Metadata (informatie over dat digitale object).
  3. Infrastructuur.

Principe F4 stelt immers dat zowel de data als de metadata geregistreerd en/of geïndexeerd moet zijn in doorzoekbare ‘resources’ (dat is dus de infrastructuurcomponent).

Rewards en incentives

Onderzoekers zijn ook gewone mensen. En dus helpt het als er naast mooie motiverende principes ook nog andere principes bestaan, zoals beloning voor goed werk en andere stimulansen. Europese en nationale subsidiegevers (de funders) werken dan ook (samen met het onderzoeksveld) aan beloningssystemen voor FAIR-gepubliceerde data en volgens de regelen der kunst geschreven software. (Ook voor software wordt gewerkt aan aangepaste FAIR-uitgangspunten).

Daarvoor zijn ook metrieken nodig: meetsystemen die op objectieve gronden het belang van de data (of de software) kunnen duiden. Hoe goed is de meta-data, de toegankelijkheid en interoperabiliteit en herbruikbaarheid? Hoe vaak is data door derden gedownload? Hoe vaak wordt in de literatuur naar de data en software verwezen? (Mede daarvoor zijn die identifiers nodig).

Daarmee moeten FAIR-data en software in het belang van de onderzoeker vergelijkbaar worden met peer-reviewed papers, momenteel de enige basis voor iemands wetenschappelijke kwaliteit en naam. Op den duur ontstaat daarmee een geheel nieuw credits and rewarding system voor subsidie verlenende en onderzoeksorganisaties.

Datakwaliteit en AI

Strikt genomen zeggen de FAIR Principles niets over de kwaliteit van de data zelf. Ze zeggen iets over de kwaliteit van de omgeving waarin de data is geproduceerd of verzameld en vervolgens ter beschikking gesteld. De implementatie-eisen die voortkomen uit de toepassing van de FAIR Principles hebben echter wel als neveneffect dat nog eens extra wordt nagedacht over waar men mee bezig is – al gedurende het verkrijgen van de data.

En ook het betrekken van de data-verzamelaars bij FAIR bevordert het besef dat de data een waarde zal vertegenwoordigen (ook als is die vaak moeilijk van tevoren vast te stellen; vergelijk het maar met de waarde van een patent).

Men zou de FAIR Principles kunnen verrijken met een kwaliteitscomponent (FAIR-Q) door ook voor de Q auditbare minimumcriteria te formuleren. Het belang van kwaliteit kan immers nauwelijks voldoende worden benadrukt. Hierbij spelen bijvoorbeeld elementen van validiteit (representeert de data wat men wil waarnemen of meten?), precisie (is de data nauwkeurig genoeg voor wat men wil weten?) en volledigheid (dekt de data het hele domein waarover we informatie nodig hebben?)

Artificial intelligence doet sterk opgang in het dagelijks leven, het onderzoek en het bedrijfsleven. Het is een brede en alomvattende term die vermomd onder tal van namen en titels voorkomt: machine-learning, neural networks, robotics en zelfs business intelligence. Eén ding hebben al die technieken gemeen: de algoritmes en regels zijn gebaseerd op data als beginpunt. En voor alle processen die met data beginnen geldt: garbage in, garbage out.

Een pregnant voorbeeld waarbij door een structureel gebrek aan invoer (in dit geval voedingsstoffen) het resultaat rampzalig is, is dat van een Engelse jongen die laatst onderwerp was in het nieuws. Hij had vanaf zijn vierde jaar slechts patat gegeten. Daardoor waren toen hij vijftien was bepaalde zenuwellen niet of onvoldoende aangelegd, waardoor hij verder doof en blind door het leven zou moeten gaan. Of dat allemaal precies waar is doet er niet zoveel toe.

Het is een goed voorbeeld van de manier waarop AI inzichten produceert die ernstige tekortkomingen heeft als bepaalde, kennelijk essentiële informatie in de data ontbreekt. Hoe afhankelijker we worden van AI, des te belangrijker wordt het om de gebruikte data te kwalificeren, op kwaliteit te toetsen, te testen en vooraf te zorgen dat de normen gehaald worden. De AI-toepassingen van de toekomst worden gevoed met de data die we nu verzamelen.

Waarom FAIR voor business

Zoals boven tussen de regels al gemeld, hebben de implementatie van de FAIR Principles in het academische domein in vooral Europa een belangrijk zijeffect gehad: versterkte interactie met de onderzoekers die met de verplichting hun data FAIR te maken worden geconfronteerd.

De verplichting is weliswaar top-down bepaald (voor verbeterde accountability van de subsidieverstrekkers en voor het creëren van extra meerwaarde uit de geïnvesteerde subsidies, et cetera) maar de FAIR Principles zijn wel voortgekomen uit de wetenschap zelf en de implementatie ervan in de verschillende disciplines kan niet zonder nauwe betrokkenheid van de onderzoekers in die disciplines (wetenschapsgebieden). De implementaties vinden vooral bottom-up plaats.

Ook in het bedrijfsleven worstelt men met de vraag hoe je de werknemers op alle niveaus bewust krijgt van het belang van hun betrokkenheid bij het verzamelen, delen en op kwaliteit krijgen van data. Dat het open laten van een veld in een database en later vergeten in te vullen consequenties kan hebben voor het hele bedrijf. Daarin kunnen de bedrijfsbrede invoering van de FAIR Principles een meerwaarde hebben die langs andere wegen moeilijk te bereiken is.

Wie is er immers tegen eerlijk delen en wie is er tegen het belonen van degenen die het met hun data goed gedaan hebben? Ook in de wetenschap zijn rewards en incentives (door met name de subsidieverstrekkers) een belangrijk onderdeel van het duurzame succes van FAIR.


Eerlijkheid en open data

Niet onvermeld mag blijven dat ook het aspect ‘eerlijkheid’ een rol speelde op de achtergrond. Onderzoekers op het gebied van malaria deden in het Westen mooie ontdekkingen die gepubliceerd werden in toonaangevende tijdschriften. Maar terwijl hier trots naar de vruchten van het wetenschappelijk onderzoek verwezen kon worden, bleek de literatuur niet toegankelijk daar waar die het meest nodig was: in gebieden waar malaria heerst. Een abonnement op de wetenschappelijke tijdschriften was daar te duur. Toen de onderzoekers zich dat realiseerden is er een grote beweging ontstaan om hierin verandering te brengen: de Opendatabeweging, met de FAIR Principles als een van de belangrijkste voortbrengselen.

Inmiddels wordt aan alle onderzoekers die een nationale of Europese subsidie ontvangen de eis gesteld dat men de data die uit het onderzoek voortkomt FAIR maakt en aanbiedt. FAIR stelt niet de wat naïeve eis dat data onder alle voorwaarden open toegankelijk moet zijn. Wel eist FAIR dat de informatie waarmee de data wordt beschreven, de metadata, open toegankelijk is. Er kunnen immers allerlei legitieme redenen zijn om data, zelfs als die publiek is gefinancierd, niet open beschikbaar te stellen. Bescherming van de privacy is daar een van.

Relevante links

eScience Center
NWO
Surf
KNAW

Dr. Patrick J.C. Aerts is (gepensioneerd) gastonderzoeker bij DANS (Data Archiving and Networked Services) van NWO en de KNAW en bij het Netherlands eScience Center (van NWO en SURF).

REAGEREN

Plaats je reactie
Je naam