Datakwaliteit: de sleutel tot betrouwbare besluitvorming
Veel leidinggevenden in datagedreven organisaties geloven dat de data die ze verzamelen niet de nodige precisie en betrouwbaarheid hebben. Dit leidt tot zorgen over garbage in, garbage out. Ontdek de belangrijkste kenmerken van datakwaliteit en waarom het van het grootste belang is om de data op orde te hebben voor een solide besluitvorming. Verken hoe je dit binnen jouw organisatie vandaag nog kunt verbeteren!

INHOUD
Wat is datakwaliteit?
De kwaliteit van data is de mate waarin data geschikt zijn voor het beoogde doel. Dit wordt bepaald door een aantal kenmerken waarvan het vereiste niveau per situatie zal variëren.
Waarom is een goede data belangrijk?
In eerste instantie staat het belang van de data in veel organisaties niet ter discussie. Een lage datakwaliteit kan ernstige gevolgen hebben en is vaak de bron van onnauwkeurige analyses, extra kosten, onbetrouwbare plannen en operationele blunders. Kwaliteitsdata geeft verschillende voordelen:
- Concurrentievoordeel: Organisaties die een hogere datakwaliteit hebben dan concurrenten of die data beter begrijpen en gebruiken dan concurrenten, hebben een concurrentievoordeel. Een betere kwaliteit betekent het identificeren van kansen voor de concurrentie.
- Meer vertrouwen: Een van de belangrijkste belemmeringen om een datagedreven organisatie te worden, is een gebrek aan vertrouwen in de kwaliteit van gegevens. Hoe hoger de datakwaliteit, hoe meer vertrouwen gebruikers zullen hebben in de uitkomsten van data-analyses. Wanneer de uitkomsten betrouwbaar zijn, wordt de hoeveelheid giswerk en risico's bij het nemen van beslissingen verminderd.
- Betere besluitvorming: Naarmate een organisatie steeds meer datagebaseerde beslissingen neemt, moet ze deze kunnen baseren op betrouwbare, nauwkeurige en volledige data.
- Hogere productiviteit: Gebruikers van data kunnen productiever zijn als ze toegang hebben tot data van hoge kwaliteit. In plaats van tijd te besteden aan het valideren en corrigeren van fouten, kunnen ze hun tijd besteden aan het analyseren van deze data.
- Betere efficiëntie: Goede data helpt bij het verminderen van onnodige kosten. Een accurate klantendataset minimaliseert bijvoorbeeld het aantal verkeerde afleveringen van producten of e-mails.
- Voorkomt reputatieschade: Dit kan variëren van kleine, alledaagse schade waarvan organisaties zich misschien niet bewust zijn (onjuiste spelling van namen, verzenden van e-mails naar overleden personen) tot enorme PR-rampen.
- Voorkomt boetes: Datakwaliteit is ook cruciaal voor datacompliance, met name in sterk gereguleerde sectoren. Het niet goed uitvoeren van deze regels kan leiden tot boetes van onder meer de privacywaakhond. Wanneer data in een organisatie ongeorganiseerd of slecht beheerd zijn, is het moeilijker om naleving aan te tonen.
11 kenmerken kwaliteit data
De mate van datakwaliteit wordt uitgedrukt in een aantal kenmerken of dimensies. Deze kunnen objectief (aantal fouten of ontbrekende waarden) of subjectief (geschiktheid voor doel) zijn. Omdat het doel de relevantie en het vereiste kwaliteitsniveau van data definieert, is het benoemen van generieke kenmerken lastig; ook kunnen kenmerken overlappen. De meest gebruikte kenmerken zijn: nauwkeurigheid, betrouwbaarheid, volledigheid, consistentie, actualiteit en uniekheid.
- Relevantie: Dit is een meer subjectieve en allesomvattende beoordeling van de datakwaliteit. Data zijn nutteloos als ze niet relevant zijn voor het beoogde doel. Daarom is het van cruciaal belang om doelen te definiëren, zodat je weet wat voor data need-to-know is en welk kwaliteitsniveau je moet verzamelen.
- Volledigheid: De mate waarin een dataset alle waarden bevat die nodig zijn om de betreffende taak te voltooien. Het identificeren van een onvolledige dataset verschilt van het zoeken naar lege cellen. Het ontbreken van voornamen is geen probleem voor een e-mailcampagne, maar wel als je deze dataset op naam wilt sorteren. Een ander voorbeeld is dat een volledig klantenbestand het mogelijk maakt om de communicatie met klanten te personaliseren. Het percentage ontbrekende relevante waarden in een dataset is verticaal (attribuutniveau) of horizontaal (recordniveau) te berekenen.
- Betrouwbaarheid: De mate waarin data waar en feitelijk zijn.
- Validiteit: Data worden als geldig (valide) beschouwd als ze het juiste formaat, type en bereik hebben. Dit kan verschillen op basis van het land, de sector of de gebruikte standaarden. Hier zijn verschillende voorbeelden:
- Datatype: numeriek, Booleaanse waarden, labels.
- Bereik: waarden moeten binnen een bepaald interval liggen; een geboortejaar van 201 is bijvoorbeeld ongeldig, omdat deze buiten het datumbereik valt.
- Patronen: Wanneer data niet voldoen aan vastgestelde standaarden worden ze als ongeldig, beschouwd, bijvoorbeeld MM-DD-JJJJJ voor een geboortedatum.
- De strikte eis dat een telefoonnummer uitsluitend cijfers moet bevatten maakt validatie eenvoudiger en voorkomt fouten, dus voor Nederlandse telefoonnummers: 13 cijfers, 0031 in plaats van +31 en geen spaties of koppeltekens.
- Identificatienummers in plaats van namen die op vele manieren kunnen worden gespeld.
- Nauwkeurigheid: Hoe effectief beschrijven de data de reële omstandigheden die ze proberen te beschrijven? Dit is een van de belangrijkste eigenschappen van hoogwaardige data. De nauwkeurigheid kan worden gecontroleerd door data met een betrouwbare bron te vergelijken.
- Identificeerbaarheid: De mate waarin datarecords uniek identificeerbaar zijn en de dataset vrij is van dubbele records.
- Consistentie: Vergelijkbare data die in verschillende bronnen zijn vastgelegd, moeten dezelfde betekenis, structuur en indeling hebben. Dit bepaalt de betrouwbaarheid. De kans op inconsistenties neemt toe naarmate het aantal bronnen toeneemt. Data op de ene locatie kunnen worden bijgewerkt, maar niet op een andere. Data moeten bijvoorbeeld allemaal dezelfde structuur hebben (+31 versus 0031 bij telefoonnummers of 10:00 PM versus 22:00 uur) of dezelfde eenheid (kg versus gram).
- Actualiteit: Hoe actueel is de data? Naarmate de tijd verstrijkt, worden data minder nuttig en minder nauwkeurig. Actuelere data weerspiegelen eerder de hedendaagse realiteit.
- Metadata: Data over data; de kwaliteit van de beschrijving van de dataset (definities, afkortingen, eenheden, berekeningsmethoden, structuur, bronnen).
- Open data: Open data vergemakkelijkt de transparantie, verantwoordingsplicht en publieke participatie, bijvoorbeeld door het snel achterhalen van onjuistheden in data. Belangrijke belemmeringen zijn de commerciële waarde van data en de gevoeligheid van data.
- Toegankelijkheid: Hoe gemakkelijk en snel zijn de benodigde data beschikbaar? Een gebruiker die geïsoleerde data nodig heeft, moet talloze moeilijkheden overwinnen om deze data te verkrijgen. Dit is niet alleen tijdverspilling, maar verhoogt ook de kans dat data verouderd zijn wanneer ze beschikbaar komen. Gevoelige data worden vaak niet openbaar gemaakt of alleen onder strikte beperkingen gedeeld.
Bestaat er een standaardaanpak om de kwaliteit van data te verbeteren?
Nee, omdat de definitie van hoge datakwaliteit zal variëren afhankelijk van het beoogde doel. Bij de kwaliteit van data gaat het meer om ervoor te zorgen dat deze geschikt zijn voor het beoogde doel dan om te voldoen aan strikt gestandaardiseerde normen. Hoewel er geen standaardbenadering is, zijn er wel algemene voorwaarden voor een goede datakwaliteit:
- Verzamelen van data: Welk soort data is nodig om je doelen te bereiken, evenals de technieken voor het verzamelen en beheren van deze data? En, heel belangrijk, onderzoek de impact van de datakwaliteit op de uit te voeren taak.
- Normen datakwaliteit: Stel per doel normen vast door kenmerken en het gewenste niveau vast te stellen. Welke data bewaar, verwijder en corrigeer je?
- Datacorrectie: Maak regels voor het corrigeren van data. Wat te doen aan ontbrekende waarden, fouten en uitschieters. Data opschonen is het proces van het verbeteren van de kwaliteit van data.
- Data-integratie en distributie: Dit gaat over hoe data tussen afdelingen worden uitgewisseld. Problemen met de datakwaliteit doen zich vaak in dit stadium voor, omdat data kunnen worden gewijzigd tijdens deze uitwisseling.
- Kennismanagement: Leg in een datacatalogus de resultaten van kwaliteitsmetingen en gebruikerservaringen met datasets vast, zeker als deze regelmatig worden hergebruikt. Dit voorkomt dat gebruikers het wiel voortdurend opnieuw moeten uitvinden. Het verbeteren van de datakwaliteit is een continu streven om potentiële problemen te identificeren die de kwaliteit van het datakapitaal van de organisatie aantasten.
Symbio6 & datakwaliteit
Kortom, datakwaliteit vormt de ruggengraat van effectieve besluitvorming, operationele efficiëntie en vertrouwen in de informatie die we gebruiken. Het verdient daarom de nodige aandacht en investeringen om te waarborgen dat de data betrouwbaar en bruikbaar zijn. Symbio6 helpt klanten deze succesfactor te verbeteren en zo tot betere geautomatiseerde besluitvorming te komen.
Begin vandaag met het transformeren van garbage in en garbage out in high value in en high value out.