Softline Group Northern Europe // Knowledge Base // Datakwaliteit vs. Datakwantiteit: deel 1 - "Big Data" uitdagingen

Datakwaliteit vs. Datakwantiteit: deel 1 - "Big Data" uitdagingen

Datakwaliteit kan worden verbeterd door extra databronnen te koppelen. Koppelen kan via connectors, API's en eenmalige imports of zelfs door verschillende ITAM tooling oplossingen aan elkaar te koppelen. Maar dit kan resulteren in grote dataverzamelingen, wat uitdagingen creëert voor ITAM specialisten.

Laten we een paar van die uitdagingen eens in detail bekijken:
 

Uitdaging 1: Representativiteit

Hoewel de door ITAM verzamelde data omvangrijk zijn, kunnen ze niet zomaar voor statistieken worden gebruikt. Dit kan in verband worden gebracht met het begrip ‘bias’: de "systematische, niet-accidentele vertekeningen in de antwoorden van ondervraagden als gevolg van de invloed van de interviewer of de formulering van de vraag of de situatie waarin de persoon wordt ondervraagd". Er zijn veel verschillende soorten vertekeningen, maar de context waarin een vraag wordt gesteld of de context waarin data worden verzameld, is van enorm belang om te bepalen hoe representatief die data zijn.

Neem bijvoorbeeld de dekkingsgraad van uw ITAM tooling. Die is vaak heel specifiek, zoals een specifiek platform, of een specifieke legale entiteit. Er zijn bijvoorbeeld tools die alleen naar SAM kijken, of SAM en HAM, maar niet naar Cloud, of bepaalde bedrijfsonderdelen worden (on)bewust buiten beschouwing gelaten. De data zijn dus niet altijd representatief.
 

Uitdaging 2: Generaliseerbaarheid

Definitie: "Hoewel observationele data een bron altijd heel goed representeren, representeren ze alleen wat het representeert en niets meer. Hoewel het verleidelijk is om vanuit specifieke waarnemingen van één platform te generaliseren naar bredere omgevingen, is dat vaak misleidend." Simpel gezegd: de data zijn wat ze zijn, en niet meer. Een belangrijke manier waarop we dit zien binnen IT Asset Management is dat bijvoorbeeld de data die verzameld worden door een tooling agent zeer specifiek zijn. Elke tooling agent heeft zijn eigen manier om data te verzamelen en kan zelfs specifieker zijn geworden door configuratie en aanpassing. Die data bestaan niet uit alle toepassingen of al het gebruik, maar uit alle toepassingen die de betreffende tooling agent ophaalt, en die informatie is specifiek gekoppeld aan de herkenningsdatabank van die agent. Het levert resultaten op die precies passen in die specifieke ITAM oplossing.

De manier waarop de tooling is ontwikkeld en het intellectuele eigendom zorgen ervoor dat wat wordt gevonden niet automatisch kan worden gegeneraliseerd. Er kunnen ook allerlei andere technische en organisatorische beperkingen zijn, zoals het niet kunnen inlezen van een bepaalde technologie of een bepaald platform. Bijvoorbeeld Linux, macOS of een bepaalde manier van ‘packaging’ die specifiek is voor die organisatie, betekent dat iets niet kan worden gegeneraliseerd.
 

Uitdaging 3: Harmonisatie

De derde uitdaging zal voor velen herkenbaar zijn. Op het moment dat data worden verrijkt en bronnen worden gecombineerd, komen er meer data beschikbaar. Maar dit heeft altijd een prijs: het samenvoegen van data, het harmoniseren van verschillende bronnen. De eerste vragen zijn: "Wat moet er gematcht worden? Op goederen-ID, op serienummer? Op beide, of heeft het ene voorrang op het andere?"

Tooling kan helpen, maar er is nog steeds een menselijke hand nodig bij het harmoniseren van databronnen. Ook zijn er nog de klassieke problemen, zoals de verschillen in dataformaat. Wat wordt er op een bepaalde plaats verwacht, wat wordt er gecombineerd? Is het een vrij tekstveld of is het een datum of misschien valuta?

Daarnaast zijn er nog de conventies die eraan vastzitten. Als we het over valuta hebben, is dat dan in Amerikaanse dollars of is dat in euro's? En wat zegt dat over punten en komma's die verschillende dingen kunnen betekenen of het datumformaat? Dit zijn dingen die bij harmonisatie in de weg staan.
 

Uitdaging 4: overvloed aan data

Tot slot de overvloed aan data. De hoeveelheid beschikbare data groeit veel sneller dan de mogelijkheden van analisten en organisaties, en de manier waarop we ermee om kunnen gaan. ITAM managers zijn vaak heel goed in het verzamelen en interpreteren van data, maar het zijn nog geen data scientists. Data analisten kunnen pas aan de slag als alle hierboven genoemde problemen door de data scientists zijn opgelost. En pas als die het veld hebben geruimd, kunnen de data analisten aan de slag. Databases worden steeds complexer en groter en de hoeveelheid metadata is niet meer hanteerbaar voor reguliere medewerkers en ook de tooling is zeer specifiek.

Interpretatie van data: Context is Koning!

Data uitwisseling, dataverrijking en datakwaliteit zijn niet alleen technische uitdagingen. Het gaat niet  alleen om API's, SSL-verbindingen en connectoren. Het gaat om het besef dat data bestaan in de context van organisatie, proces en technologie. Daarom zijn belanghebbenden zoals enterprise architecten, data eigenaars, proceseigenaars - de mensen die de data gebruiken - belangrijk in dit soort projecten.

Er zijn veel variabelen, zoals het proces van dataverzameling, welke data worden verzameld, wat is de reikwijdte, welke stroom doorloopt de data, wat is de timing ervan, wanneer worden ze genormaliseerd, wat wordt verbeterd en wat niet? Dit is allemaal even belangrijk als de gebruikte technologie. Context is hier koning.

Verdere stappen

Herkent u deze uitdagingen, en bent u geïnteresseerd in manieren om ze te aan te gaan? Neem contact op met onze ervaren consultants om meer te weten te komen. Of lees verder in deel twee van "Data Kwaliteit vs Data Kwantiteit" waar we ingaan op hoe contextuele verschillen tussen ITAM End point oplossing en ITAM oplossingen geïntegreerd in een platform de uitdagingen beïnvloeden waarmee onze klanten geconfronteerd werden. Een MUST READ voor iedereen die werkt in een omgeving waar een tooling migratie wordt besproken (dus dat bent u allemaal).