Waarom een datacatalogus belangrijk is
Een datacatalogus legt verborgen data binnen een organisatie bloot. Hierdoor hebben eindgebruikers minder tijd nodig om relevante data te zoeken en te beoordelen. Zij kunnen deze tijd nu benutten voor het daadwerkelijke gebruik van deze data in hun data-analyses.
INHOUD
Wat is een datacatalogus?
Een datacatalogus is een informatieve en doorzoekbare inventarisatie van data waarover een organisatie beschikt. Gebruikers kunnen relevante data eenvoudig vinden, beoordelen en ophalen. Een datacatalogus verbindt vraag en aanbod van data.
Een datacatalogus bevat soms datasets met veel gebruikte definities, synoniemen (thesaurus) en afkortingen. Verder maken datasets geen deel uit van een datacatalogus, hierin is slechts een beschrijving van de data (metadata) opgenomen.
Voordelen datacatalogus
Organisaties die een datacatalogus effectief implementeren, merken vaak aanzienlijke verbeteringen in de snelheid en kwaliteit van data-analyses, evenals het enthousiasme van degenen die ze moeten uitvoeren.
- Sneller relevante data: Zonder catalogus zal de eindgebruiker elke keer opnieuw op zoek moeten gaan naar data en informatie over deze data.
- Efficiëntie: Doordat datasets van duidelijke metadata te voorzien, inclusief gebruikerservaringen, is de gebruikswaarde direct vast te stellen en hoeft het wiel niet opnieuw te worden uitgevonden.
- Bevat geen datasets: Een datacatalogus bevat alleen metadata over data.
- Behoud originele dataset: Een ander voordeel is dat de data in het originele formaat worden bewaard, in tegenstelling tot software die data samenvoegen en bewerken (ETL, data warehouse, data lakes). Dit maakt het eenvoudig om terug te keren naar de bron.
- Doorbreken datasilo's: Een datacatalogus maakt datasets, eigenaren, stewards en experts in datasilo’s zichtbaar. Dit bevordert de samenwerking op een positieve manier zonder dat ingrijpende veranderingen in de huidige organisatie nodig zijn.
- Kennismanagement: Een datacatalogus kan ook gebruikt worden om kennis te verzamelen en op te slaan.
- Loggen gebruik data: Een datacatalogus kan de mogelijkheid bieden om het gebruik van datasets te loggen. Door deze logs te analyseren is informatie over het nut of de kwaliteit van data te verzamelen.
- Crowdsourcing: Hierbij kan de gebruiker zijn kennis en ervaring in de datacatalogus vastleggen en daarmee aanbevelingen doorgeven aan andere gebruikers van de data.
Functies datacatalogus
Een datacatalogus is meer dan alleen een tool om naar data te zoeken. Het geeft ook een beoordeling van en toegang tot data.
Zoeken
Een datacatalogus zal, naast het presenteren van een overzicht, proberen data te ordenen door ze te categoriseren, classificeren en hiërarchisch in te delen (taxonomie). Dit verbetert de doorzoekbaarheid van de data.
Gebruikers kunnen deze geordende data vinden door te browsen, maar ze kunnen ook functies gebruiken zoals een zoekfunctie, filters of zelfs suggesties door het systeem zelf aan de hand van hun profiel. Een eindgebruiker kan zo eenvoudig relevante data selecteren uit het datalandschap van de organisatie.
Beoordeling
Het selecteren van de juiste data is afhankelijk van het vermogen om vast te stellen of ze geschikt zijn voor een analyse zonder eerst de data te downloaden. Metadata voegen context toe aan data, waardoor ze gemakkelijker te begrijpen zijn. Metadata helpen bij het ontdekken van data door aan te geven wie hiermee werkt, de levenscyclus van de data en de voorwaarden van de leverancier te beschrijven.
Een voorbeeld van een dataset, gebruikte definities en berekeningsmethoden, gebruiksvoorwaarden en -statistieken, gebruikersbeoordelingen, annotaties van leveranciers en informatie over datakwaliteit helpen allemaal bij het beoordelen van de data. Als de datacatalogus niet alle vragen van een eindgebruiker beantwoordt, is het handig om te weten wie de data-eigenaren, stewards en specialisten zijn, zodat de gebruiker weet met wie contact kan worden opgenomen. Doordat de data zo beter begrepen is, kan er een gedegen beslissing worden genomen, wordt er geen tijd verspild en kan de eindgebruiker direct aan de slag met de best toegankelijke data.
Toegang
Een volledige datacatalogus begrijpt de toegangsprotocollen en biedt directe toegang, werkt samen met toegangstechnologieën of geeft aan via wie toegang tot data is te verkrijgen.
Tools catalogiseren data
Is het moeilijk om een datacatalogus te maken? Nee, een organisatie heeft al veel software in huis die kan worden gebruikt om een eenvoudige datacatalogus op te zetten. Dit kan bijvoorbeeld door op het intranet de catalogus als een web- of wikipagina te publiceren.
Er zijn ook zeer geavanceerde systemen (Enterprise Metadata Management-software) die veelal opties bevatten voor crowdsourcing en het loggen van het gebruik van data. Indien nodig kunnen deze systemen ook voorkomen dat sommige delen van de catalogus zichtbaar zijn. Voorbeelden zijn Microsoft Azure Data Catalog, Alation Data Catalog, Collibra Platform en Informatica Enterprise Data Catalog.
Symbio6 & datacatalogus
Elke casestudy van Symbio6 bevat een aanzet voor een datacatalogus en daarmee een opstapje voor structurele verbeteringen om een organisatie meer datagedreven te maken.
Conclusie
Een datacatalogus maakt het strategisch organisatie kapitaal data expliciet, zonder dat ingrijpende veranderingen in de organisatie nodig zijn. Met een datacatalogus kan een eindgebruiker snel data zoeken en vinden, alle toegankelijke datasets evalueren en weloverwogen keuzes maken, om vervolgens efficiënt een data-analyse uit te voeren. Verder is een datacatalogus een voorwaarde voor datageïnspireerde besluitvorming.