Lange tijd is ongestructureerde data, denk aan foto’s, video’s en tekstdocumenten, een ondergeschoven kindje geweest. Opgeborgen als ongedefinieerd Blob-type (binary large object) in een database of in een perifere enterprise content management-toepassing. Die tijden lijken met de aanhoudende groei van dit soort data tot het verleden te behoren. Ongestructureerde data wordt steeds vaker gezien als een belangrijke bron van informatie. Daarmee verdient deze ook een andere behandeling.

Behalve de aanhoudende aanwas van data, waarbij de ongestructureerde variant het snelste groeit, is ook wetgeving zoals GDPR een belangrijke oorzaak van deze emancipatie. Bij de nieuwe privacywetgeving maakt het namelijk niets uit of persoonlijke gegevens de vorm aannemen van data die netjes past in de rijen en kolommen van een relationele database – naw-gegevens et cetera – of dat het gaat om pasfoto’s, röntgenfoto’s, video- en audio-opnames of tweets die worden gedeeld op sociale media. Als het om persoonlijke data gaat, valt die onder GDPR (en in Nederland onder de AVG).

Onderzoek naar Sarbanes-Oxley in de Verenigde Staten laat zien dat twee jaar na de implementatie daarvan, organisaties er hun voordeel mee doen. Dat heeft te maken met een verbeterd datamanagement, beter inzicht en betere datakwaliteit. Een goede basis voor data-analyse en inzichten waarop geacteerd kan worden! Hetzelfde effect zal zeker ook gelden voor de GDPR. Of organisaties de nieuwe wetgeving nu omarmen als een manier om zich als dataprivacykampioen te positioneren, of dat ze het zien als een ongewenste kostenpost en een onnodige verzwaring van de administratie is daarbij niet van belang. In beide gevallen zal immers toch gezorgd moeten worden voor een datafundatie die voldoet aan de eisen die de GDPR stelt.

Waarde van ongestructureerde data

Ongestructureerde data is een verzameling van nogal verschillende datatypen. Het kan hierbij gaan om video, audio, documenten, presentaties, e-mails, et cetera. Deze data bevat net als gestructureerde data informatie waarmee een organisatie haar voordeel kan doen:

  • Analyse van socialemediaberichten kan gebruikt worden voor sentiment-analysis: wat vinden gebruikers van Facebook of Whatsapp van het bedrijf en zijn producten? Zijn ze daar positief over of vinden ze het helemaal niets? Door een thermometer te steken in sociale-mediaberichten kan eerder en effectiever worden gereageerd op trends die ontstaan.
  • In het kader van het complete klantenplaatje (‘360 degree view of the customer’) is het zaak om ook informatie uit een jaarverslag, van de website en van sociale media erbij te betrekken. Zeker ook omdat uitingen gedaan via sociale media een andere dimensie toevoegen aan de meer zakelijke uitingen gedaan via jaarverslagen en de officiële website. Het is bijvoorbeeld zeker nuttig om te weten dat de directeur van je belangrijkste klant zich in zijn vrije tijd inzet voor het behoud van de Drentse bossen.
  • Camerabeelden en geluidsopnames (microfoons) worden door de City of Chicago ingezet om snel te kunnen bepalen of er sprake is van een situatie waarin politie of medisch personeel vereist is. Hierbij speelt video- en stemanalyse een centrale rol. Is een hard geluid in een winkel een schot of een doos die omvalt? Door de combinatie van beeld en geluid kan dit direct bepaald worden en kan adequate actie plaatsvinden.
  • Herkenning van personen op foto’s is een ander voorbeeld van het gebruik van ongestructureerde data, zoals bijvoorbeeld al door Google wordt toegepast. Een andere toepassing gebeurt door instanties zoals de AIVD die daardoor sneller doorhebben waar bepaalde verdachte personen zich bevinden.
  • Kapitaalverstrekkers maken bij het beoordelen van investeringsplannen gebruik van software waarmee investeringsplannen worden ingedikt tot een van te voren aan te geven aantal pagina’s. Op basis van deze eerste summary wordt duidelijk of het de moeite waard is om meer aandacht te besteden aan een plan. Op deze manier verdwijnt al meteen een groot deel van de plannen in de prullenbak en kan men zich richten op die plannen die het meest veelbelovend zijn.
  • Bekend zijn ook de analyses van zoek-opdrachten die Google verricht waarmee een verhoogde interesse in bijvoorbeeld griep kan worden opgemerkt. Uiteraard kan dit worden uitgevoerd voor elk steekwoord, waarbij gebruik van een thesaurus (context) ervoor zorgt dat wat wordt gevonden ook relevant is en niet slechts een verdwaald woord in een document of op een website.

Organisatie van ongestructureerde data

Zoals eerder aangegeven wordt ongestructureerde data vaak nog als een Blob (of Clob, Character large object, een databasetype) in een database opgeslagen. Het nadeel van deze werkwijze is dat de data (bijvoorbeeld een foto of een contract) wel kan worden opgeslagen en weergegeven, maar niet kan worden geanalyseerd. Ook maken organisaties vaak gebruik van ECM-applicaties (enterprise content management) om ongestructureerde data te managen. Hierbij kan het gaan om het management van documenten, afbeeldingen, workflows, et cetera. Het voordeel van ECM is dat het de hele lifecycle afdekt. Het nadeel is dat met name grotere organisaties snel over meerdere ECM-systemen beschikken.

De data zelf zorgt voor de metadata

Gezien de enorme groei van data, volgens IDC (april 2017) tot 163 zetabytes in 2025, zijn technologieën als Hadoop, MapReduce en Sparc de aangewezen manier om die snel genoeg op te slaan en te verwerken. Het aandeel ongestructureerde data wordt geschat op 80 procent. Opslag van data gebeurt ‘schema-less’. Kort gezegd komt dit erop neer dat de data wordt opgeslagen, en dat pas bij gebruik van de data wordt bepaald om welke data het precies gaat. Bij ongestructureerde data betekent dit dat de data wordt voorzien van tags en een plaats krijgt in een taxonomie.

Figuur 2. Een hybride structuur combineert gestructureerde en ongestructureerde data

Big data

Het grote voordeel van big data is dat het met name een heleboel verschillende datatypes ondersteunt. Denk bijvoorbeeld aan strings, audio en video, teksten, documenten, log files, socialemediaberichten en bijvoorbeeld grafen. Daarbij komt dat big data kan werken met grotere hoeveelheden data en makkelijker kan omgaan met een ad-hoc- en een minder voorspelbare context dan de reguliere databases die worden ingezet voor gestructureerde data.

Het big-datalandschap is sterk in ontwikkeling en kent verschillende datastores zoals: Document stores, Key-value stores, Column family stores en Graph databases. Voor het managen van semigestructureerde data, zoals documenten, kan het beste gewerkt worden met documentstores. Elke verzameling gegevens kan als zodanig worden vastgelegd, ze hoeven niet te voldoen aan een uniforme aanpak. De data zelf zorgt voor de metadata die gebruikt kan worden om de data te bevragen.

Uitdagingen en aanpak

Tegenover de waaier van mogelijke toepassingen en de belofte van waarde uit ongestructureerde data staat de praktijk van het huidige gebruik van die data. Als het om ongestructureerde data gaat zijn er meerdere uitdagingen:

  • Er zijn vele verschillende toepassingen, met elk hun eigen oplossing (wiki, ECM, sentiment-analysis, et cetera) die deels kunnen overlappen in data en functionaliteit.
  • In de loop van de tijd zijn bedrijven gaan beschikken over meerdere gelijksoortige oplossingen (meerdere wiki’s, ECM-systemen, searchsystemen, et cetera).
  • Verschillende zoek/searchfuncties die elk maar een deel van de data beslaan en die lijsten niet-relevante resultaten opleveren.
  • Geen of slechte metadata (waar komt de data vandaan, wie heeft welke bewerkingen erop gedaan en wanneer?)
  • Zelfde data die op meerdere locaties staat (met kleine afwijkingen – wat is de juiste versie?)

Hoge beheerkosten, hoge zoekkosten en een lage trefkans zijn een aantal van de resultaten hiervan. Net zoals tegenstrijdige info en de inspanning om deze data te combineren. Met de organisatie van ongestructureerde data is dus nog het een en ander te winnen.

Om deze situatie aan te pakken en ongestructureerde data beter te kunnen managen is het nodig dat over de volgende mogelijkheden wordt beschikt:

  • Text parsing: om ervoor te zorgen dat teksten geïnterpreteerd kunnen worden.
  • Tags: toekennen van een of meerdere labels die helpen om data te categoriseren.
  • Semantische analyse van de tekst, analytics (video, foto, et cetera).
  • Genereren en onderhouden van een taxonomy (een classificatie).
  • Opslaan van (grote hoeveelheden) ongestructureerde data.
  • Zoekfunctie (search).
  • Metadata.

Door processen te analyseren waarin ongestructureerde data een rol speelt en te analyseren op welke wijze de data wordt ingezet, ontstaat een integraal beeld van de ongestructureerde data waarover organisaties beschikken. Voor deze toepassingen kan vervolgens worden bekeken hoe deze optimaal ondersteund kunnen worden. De eerder genoemde lijst met functionaliteiten kan daarbij als hulpmiddel fungeren, door te bepalen in hoeverre deze aspecten voor een bepaalde toepassing van belang zijn.

“Met ongestructureerde data is nog veel te winnen”

Voor alle systemen die beschikken over ongestructureerde data kan vervolgens worden aangegeven welke daarvan een system of reference zijn (bron), dan wel system of entry (invoer) of system of use (gebruik). Op deze manier ontstaat een samenhangend beeld van alle ongestructureerde data en wordt duidelijk wat de referentie is, ook als dezelfde data in meerdere systemen voorkomt. De vereenvoudiging en afstemming die hieruit voortvloeit, draagt bij aan de eerder genoemde datafundatie en maakt het mogelijk om meer waarde te halen uit ongestructureerde data, al dan niet in combinatie met gestructureerde data.

Conclusie

Ongestructureerde data is de categorie data die het snelste groeit. De inschatting is dat 80 procent van de data waarover organisaties beschikken ongestructureerd is. Om hier waarde uit te kunnen halen zal de organisatie van dit soort data eerst verbeterd moeten worden, door per proces te bepalen waar deze data wordt gebruikt, welk systeem als bron kan worden beschouwd, en waar het gaat om invoer of gebruik van deze data. Op deze manier ontstaat een integraal beeld en een verbeterde datafundatie (samen met gestructureerde data) waarmee organisaties hun voordeel kunnen doen.