Data is al lang niet meer ‘het nieuwe goud’, maar gewoon ‘goud’. Data lakes worden aangelegd, al of niet in de cloud, analytics vindt brede toepassing, en AI doet zijn intrede. Zoals alles kent ook de databerg een keerzijde van de medaille: hoe leid je een zondvloed aan data in goede banen? Een recente case van een farmaceutisch bedrijf laat zien waar de aandachtspunten liggen.

Het farmaceutisch bedrijf, laten we het Farmacia noemen, heeft succes met nieuwe producten. Er is net een nieuw product op de markt gebracht, alweer met succes. De omzet van het bedrijf groeit exponentieel. Een van de belangrijkste uitdagingen die Farmacia ervaart, is de snelheid waarmee medicijnen ontwikkeld worden. Die moet omhoog om verdere groei en versnelling mogelijk te maken. Een groot deel van de oplossing is gelukkig duidelijk: slimmer gebruik van databronnen.

Terabytes

Onderdeel van de aanpak is de uitkomsten van eigen data-analyses vergelijken met geanonimiseerde data van bijvoorbeeld ziekenhuizen en universiteiten. Die vergelijking geeft inzichten in het effect van medicatie en behandelmethodes.

Farmacia heeft al enkele apparaten staan die de analyses uitvoeren. Ze genereren per stuk terabytes aan data. Desondanks is de keuze businesswise heel duidelijk: er moet meer van dit soort apparatuur komen.

Met Farmacia samen is NTT nu bezig een cloudoplossing te ontwerpen. De uitdaging zit in de hoeveelheid data die de analyse-apparaten genereren. Die hoeveelheid is dermate groot dat er geen netwerk tegen opgewassen is. Hoe krijg je al die data naar de cloud? Een uitdaging die overigens ook in andere sectoren bekend is.

Data naar de cloud

De cloud wordt steeds vaker en intensiever gebruikt voor dataopslag, -verwerking en -analyse. De invoer en uitvoer van de data (cloud-I/O) kent echter serieuze beperkingen als het om grote volumes gaat. TCP (via http) is het protocol voor het transport van data over internet.

Dat gaat meestal prima, maar met grote hoeveelheden gegevens wordt het lastig. Bij een hoge bandbreedte treedt vaak nog extra vertraging op; bij grote bestanden en een flinke te overbruggen afstand heb je te maken met verschijnselen als latency en pakketverlies.

Grote serviceproviders bieden mogelijkheden voor directe toegang tot hun clouds, maar daarvoor is een dedicated verbinding nodig van de klant naar het point of presence van de cloudprovider. Het is een dure oplossing, als die al beschikbaar is in de regio waar het bedrijf is gevestigd.

Veel datacenters beschikken ook over een optie voor directe toegang, zodat data van de klant direct de cloud in kan. In het geval van Farmacia is die mogelijkheid niet aanwezig, omdat de apparatuur in de eigen laboratoria staat.

Edge computing

De apparaten van Farmacia kun je beschouwen als IoT-apparatuur. Ook IoT heeft de eigenschap dat het internetverbindingen kan overstelpen met data. De oplossing voor deze issue heet edge computing. Hierbij vindt het bewerken van data dicht bij de bron plaats en wordt data niet zonder meer naar een centrale locatie gestuurd. Dat kan nodig zijn, bijvoorbeeld bij zelfrijdende auto’s, waar de snelheid van interactie essentieel is.

Ook in allerlei andere scenario’s is snelheid geboden. Denk aan sensoren die data van een kostbare machine ontvangen. Je wil niet dat bij een dreigende vastloper ruwe data over het netwerk gaat, waarna een centrale computer mogelijk te laat ingrijpt. Je wilt dat het IoT-apparaat een bericht stuurt: ‘vastloper dreigt’. Latency is ongewenst en netwerkcapaciteit is niet oneindig.

Gevoelige materie

De ratio achter edge computing biedt ook aanknopingspunten voor Farmacia. Het kan een mogelijkheid zijn de data eerst te bewerken en dan pas naar de cloud te sturen. Of deze te classificeren en er dan slimme dingen mee te doen. De GDPR stelt sowieso eisen aan gegevensopslag en farmaceuten moeten daarbij aan nog veel meer eisen voldoen – specifiek voor de branche – net als financiële instellingen overigens.

Hoe krijg je al die data naar de cloud?

Dataclassificatie is gevoelige materie. De regelgeving loopt uiteen tussen de VS en Europa, en zelfs binnen Europa. In de internationale handel is het een regelrechte uitdaging als je alleen al kijkt naar invoerrechten en lokale belastingstelsels. In de retailbranche zijn er zelfs gevallen waarin de fiscus een naheffing heeft gedaan, leidend tot faillissement door verkeerde dataclassificatie.

Onjuiste verhalen

Over dataclassificatie doen veel onjuiste verhalen de ronde. Zo zou het een langdradig, bureaucratisch proces zijn. Het tegendeel is waar. Je kunt klein beginnen, met slechts enkele categorieën en snel resultaat laten zien.

Ook zou de RoI niet bepaald positief zijn. Ook hier kun je kanttekeningen bij plaatsen, want goede dataclassificatie helpt je om gegevensbescherming effectiever in te richten. Als iedereen weet wat er beschermd moet worden (en wat niet), werkt dat een stuk beter – en goedkoper. Dataclassificatie helpt je bovendien de enorme groei van de databerg het hoofd te bieden.

Aanpak

Er zijn verschillende benaderingen van dataclassificatie, onder meer op basis van content, dan wel context (‘hoe wordt de data gebruikt’) of handmatige classificatie. Er zijn frameworks beschikbaar die helpen het proces in goede banen te leiden.

Hoe je dataclassificatie in de organisatie aanpakt, is een verhaal apart. In elk geval is het belangrijk alle stakeholders vroegtijdig te identificeren en uit te gaan van de behoeften van de gebruikers van de data. Ook is het goed te kijken welke collega’s je als ambassadeurs kunt inzetten en welke executives zich willen committeren.

Accepteer in elk geval niet meer de stereotype reactie ‘We hebben het altijd zonder gedaan’. Zo ga je niet met goud om.

REAGEREN

Plaats je reactie
Je naam