Big data, analytics, selfservice: op datagebied komt er veel op organisaties af, en dat vraagt om een moderne data-architectuur. Tegelijkertijd staan veel organisaties, als het op datawarehousing en business-intelligence (BI) aankomt, nog met minimaal één been in de ‘oude’ wereld van legacy-systemen – en die hebben vaak moeite met het verwerken van al die fraaie data-innovaties van het afgelopen decennium. Hoe vallen die oude en nieuwe wereld aan elkaar te knopen?

Volgens Dave Wells, BI- en analyticsconsultant bij de Eckerson Group, is het hoog tijd dat bestaande data-architecturen op de schop gaan, zo betoogde hij onlangs in een blogpost op tdan.com. Volgens Wells wordt elk van de afzonderlijke data-innovaties van de laatste tien jaar – big data, analytics en selfservice – gekenmerkt door een mix van enorme (commerciële) potentie én grote uitdagingen.

De drie innovaties sámen leiden in potentie tot een wereld van onbegrensde mogelijkheden én extreme complexiteit. Om recht te doen aan die combinatie, is het nodig om de data-architectuur te moderniseren. De hamvraag daarbij is: wát moet er precies gemoderniseerd worden? En hoe?

Nieuwe supplychain

Een traditionele BI-architectuur kent een aantal karakteristieken die, bij nadere beschouwing, in de weg staan bij het ten volle benutten van het potentieel van big data en selfservice-analytics. Zo kent een traditionele architectuur een lineaire data- en workflow.

Ook is dit soort systemen ingericht op de verwerking van gestructureerde ondernemingsdata en worden gegevens verwerkt in batches – met alles wat daar aan data-latency bij komt kijken. Verder is zo’n traditionele architectuur rigide van aard; opschalen is de dominante groeistrategie. Ten slotte leunt een traditionele data-architectuur zwaar op de IT-afdelingen.

Een moderne data-architectuur daarentegen moet om kunnen gaan met een meervoudige datastroom, een iteratieve verwerking, ongestructureerde en externe data, verwerking van realtime data met minimale vertraging, scale-out-groeimanagement, en selfservice met een bepaalde mate van autonomie. Dat vraagt om een nieuwe informatie-supplychain en een andere benadering van data.

Waar gegevens van oudsher worden gezien als een technische asset die moet worden opgeslagen, verwerkt en beheerd, is data tegenwoordig een resource die te allen tijde voor iedereen beschikbaar moet zijn. Data is niet langer een statisch, opgeslagen geheel, maar een dynamische, vloeiende stroom die alle businessprocessen raakt. De supplychain die deze stroom mogelijk maakt, is iteratief en intelligent en past zich voortdurend aan veranderende omstandigheden aan.

In totaal telt deze informatieketen vijf stappen; van het inbrengen van data in het analytics-ecosysteem en het vervolgens catalogiseren en voorbereiden van de (meta)data, tot het analyseren van de data en het vertalen van de hieruit voortvloeiende inzichten naar de business.

Deze nieuwe supplychain leunt op geavanceerde technologieën voor goed datapijplijnmanagement en voor catalogisering en voorbereiding van data, en vormt de basis voor een moderne analytics-architectuur. Deze moderne architectuur ondersteunt legacy-integratie volledig. En dat is geen overbodige luxe nu de meeste organisaties nog steeds met één voet in de ‘traditionele’ wereld van BI en warehous-ing staan, zo is de gedachte.

Kenmerkende verschillen

Als we de traditionele en moderne analytics-architectuur naast elkaar leggen, dan springt een aantal verschillen in het oog. Lineaire data- en workflows maken plaats voor multi-directionele, iteratieve workflows; gestructureerde ondernemingsdata wordt vervangen door gestructureerde én ongestructureerde data, afkomstig uit zowel in- als externe bronnen; batch-processing maakt plaats voor realtime processing; een rigide infrastructuur verandert in een flexibele infrastructuur; en centrale dienstverlening maakt plaats voor selfservice en autonomie.

“Het valt veel bedrijven zwaar op hun schreden terug te keren als de opbrengsten tegenvallen”

Toch valt er ook nog wel wat af te dingen op deze moderne architectuur, zo betoogt Bill Inmon (grondlegger van het datawarehouse) in een reactie op het eerder genoemde artikel van Wells. Volgens hem klopt het absoluut dat de nieuwe, verbeterde architectuur beter uit de voeten kan met grote hoeveelheden (big) data. Tegelijkertijd vindt hij dat de nieuwe architectuur voorbijgaat aan een aantal fundamentele zaken. Zo ontbeert de nieuwe architectuur een infrastructuur voor het goed integreren van gestructureerde data. Om ruwe gegevens op een intelligente manier aan te kunnen wenden voor gefundeerde businessbeslissingen, zullen ze eerst door een integratieproces heen moeten worden geleid.

Return on investment

Ook is het een misvatting om te denken dat ongestructureerde data voor het grijpen ligt. Om ongestructureerde data ten volle te kunnen benutten, is een heel scala aan technologieën nodig: van taxonomieën, inline contextualisatie en tekstuele desambiguering tot inference processing, conjunction resolution en special character sweeping.

Al deze en andere technieken zijn nodig om ongestructureerde data om te vormen tot bruikbare gegevenssets. Tegelijkertijd ontbreekt bij veel vooraanstaande dataleveranciers écht diepgaande kennis op dit vlak; nog te vaak gaan ze ervan uit dat een datascientist wel uit de voeten kan met deze ongestructureerde data.

Andere kanttekening: investeren in een nieuwe en moderne architectuur is duur, en vaak is er geen duidelijkheid over de return on investment. Wat leveren al die investeringen onder de streep concreet op aan extra efficiency, omzet en winst? Vooralsnog blijven de concrete opbrengsten vaak sterk achter bij de torenhoge verwachtingen rond big data. Complicerende factor is dat het – juist omdat er vaak zulke grote investeringen ten grondslag liggen aan een nieuwe architectuur – veel bedrijven zwaar valt om op hun schreden terug te keren als de opbrengsten tegenvallen.

De verwachting is dat oude en nieuwe architecturen uiteindelijk in elkaar zullen overvloeien. Werknemers verwerken weliswaar meer gegevens dan ooit, maar de integriteit van die data moet dan wél in orde zijn. Pas als organisaties erin slagen om ongestructureerde data om te zetten in waardevolle data, kan deze als basis dienen voor intelligente beslissingen en zorgen voor een daadwerkelijke return on investment.

Arnoud van Gemeren is hoofdredacteur van CIO Magazine, Boardroom IT en voormalig hoofdredacteur van TITM (Tijdschrift IT Management) en Outsource Magazine. Hij heeft een lange staat van dienst in de Nederlandse IT-mediawereld. Na een start bij een redactiebureau, was hij als hoofdredacteur van 1996 tot 2001 bij uitgeverij Array Publications verantwoordelijk voor diverse IT-vakbladen. In 2001 sloot hij zich aan bij een adviesbureau op het gebied van marketingcommunicatie, Beatrijs Media Group. Vanuit dit bureau bleef hij als hoofdredacteur actief, onder meer voor Sdu Uitgevers.