Filip Cuppens (DynApps, ABC-Groep) geeft u enkele tips en ideeën die u laten nadenken over datakwaliteit en data governance. Bedoeling is dat de presentatie de lezer aanzet tot nadenken om de nodige stappen te ondernemen om in het eigen bedrijf de kwaliteit van de data die gebruikt wordt voor het maken van beslissingen te verbeteren
3. AGENDA
• Biografie
• Wat verstaat men onder data governance en data kwaliteit
• Data governance workflow
• Data issues in een data warehouse
• Conclusies
4. BIOGRAFIE
• Business Intelligence Consultant sinds 2002
• Werk voor DynApps sinds mei 2011
• Carrière pad
• BI Developer
• BI Analyst
• BI Project Lead
• BI Unit Manager
• Projecten
• DHL Aviation
• Johnson & Johnson
• SD Worx
• Nutricia
5. DATA GOVERNANCE EN
DATA KWALITEIT
• Data
• Gestructureerd: databases
• Ongestructureerd: mails, word-docs, PDF, internet
• Beslissingen op basis van data
• Kwaliteit van die data ?
• Is de data betrouwbaar genoeg om beslissingen te nemen ?
• Hoe kunnen we zeker zijn dat de data betrouwbaar is ?
• Data Governance
• Afspraken, tools, beslissingen die tot doel hebben de data kwaliteit te
verbeteren
• Personen verantwoordelijk voor de kwaliteit van de data
6. DATA GOVERNANCE EN
DATA KWALITEIT ?
• Data Kwaliteit
• Operationele data
• Negatieve connotatie
• Defecten, issues
• Slechte data kwaliteit
• Data stewards
• “Poor data quality is amongst Top 5 reasons why data warehouse
projects fail”
• Data Governance
• BI Projecten
• Data warehouse projecten
7. DATA GOVERNANCE EN
DATA KWALITEIT !
• Data Kwaliteit
• Data Definities
• Afspraken
• Meta data
• Verbeter processen
• Niet enkel in een data warehouse, maar voor alle data
• Ook operationele data
8. DATA GOVERNANCE
WORKFLOW
Data
No Decision on
Quality Create/Update Address the
solving the
Rules Meta Data issues
defects
Accurate
Yes
Create Inventory
List of Defects
Give all issues Revisit
an Impact Profile Data Documentation Report Findings
Weight and Weights
9. DATA GOVERNANCE
WORKFLOW
Data
No Decision on
Quality Create/Update Address the
solving the
Rules Meta Data issues
defects
Accurate
Yes
Create Inventory
List of Defects
Give all issues Revisit
an Impact Profile Data Documentation Report Findings
Weight and Weights
10. DATA DEFINITIES
• Data Definities
CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity
CustomerName CustomerZIP CustomerCity
1 CAS CASA
CASA 2000 Antwerpen
2000 Antwerpen
2 BLO Blokker
Blokker 1080 Brussel
1080 Brussel
3 AL Aldi
Aldi 1040 Brussel
1040 Brussel
4 LID Lidl
Lidl 2100 Deurne
2100 Deurne
5 KRF Krefel
Krefel 3600 Genk
3600 Genk
6 VDB Van den Borre
Van den Borre 8000 Gent
8000 Gent
7 KRE Krefel
Krefel 3600 Genk
3600 Genk
8 CAR Carrefour
Carrefour 10000 Brussel
10000 Brussel
11. DATA DEFINITIES
• Data definitie tips
• Men kan enkel spreken over een defect indien er een regel bestaat
omtrent de correctheid van de data
• Data kwaliteit regels dienen bepaald te worden door de business, NIET
door IT
• Data kwaliteit wordt NIET gedefinieerd op data storage level
• Data kwaliteit wordt geïmplementeerd op data storage level
12. DATA GOVERNANCE
WORKFLOW
Data
No Decision on
Quality Create/Update Address the
solving the
Rules Meta Data issues
defects
Accurate
Yes
Create Inventory
List of Defects
Give all issues Revisit
an Impact Profile Data Documentation Report Findings
Weight and Weights
13. DATA PROFILING
• Met behulp van specifieke tools een inzicht krijgen in de structuur en
kwaliteit van de data
• Proces met als bedoeling informatie te krijgen over de data in plaats
van informatie uit de data halen
• Voorbeeld: BE postcode pattern = ‘B-9999’
14. DATA GOVERNANCE
WORKFLOW
Data
No Decision on
Quality Create/Update Address the
solving the
Rules Meta Data issues
defects
Accurate
Yes
Create Inventory
List of Defects
Give all issues Revisit
an Impact Profile Data Documentation Report Findings
Weight and Weights
15. DATA ISSUE OPLOSSEN ?
• Kost om issue op te lossen ?
• Kosten voor de business (als issue niet wordt opgelost)
• Kost om issue op te lossen
• Risico’s indien issue niet opgelost worden ?
• Waar het defect oplossen ?
• Business beslissingen, geen IT beslissingen
16. DATA ISSUE OPLOSSEN ?
• Een voorbeeld
Klanten Leverancier
5 Warehouses
Gent
Brugge
Antwerpen
Transport Hasselt Transport
Leuven
17. DATA ISSUE OPLOSSEN ?
• Een voorbeeld
CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity
1 CAS CASA 2000 Antwerpen
2 BLO Blokker 1080 Brussel
3 AL Aldi 1040 Brussel
4 LID Lidl 2100 Deurne
5 KRF Krefel 3600 Genk
6 VDB Van den Borre 8000 Gent
7 KRE Krefel 3600 Genk
8 CAR Carrefour 10000 Brussel
10000 Brussel
Operationele kost: extra transport kost = € 0,00
Analyse:
nieuw warehouse te openen in de regio Brussel
19. DATA ISSUES IN EEN
DATA WAREHOUSE
• Is per definitie data in een data warehouse niet ‘proper’ ?
• ETL: veel aandacht besteed aan data kwaliteit
• BI initiatieven gaan vaak gepaard met master data management
initiatieven
• Maar toch …
20. DATA ISSUES IN EEN
DATA WAREHOUSE
• Voorbeeld: tijdsregistratie Datum Persoon Omschrijving
• Afwezigheid 10/01/2012 Filip C. Vakantie
• code 100 20/01/2012 Filip C. Ziek
• Omschrijving: vrij tekst veld 07/02/2012 Filip C. Verlof
• Guidelines voor omschrijving
22/02/2012 Filip C. Sociaal Verlof
• Vakantie
• Ziek
• Sociaal verlof
Key Omschrijving
1 Vakantie
2 Ziek
3 Sociaal Verlof
4 Verlof
21. DATA ISSUES IN EEN
DATA WAREHOUSE
• Business voorstel voor oplossing
• ETL blokt nieuwe waarden
• Workflow voor creatie van nieuwe waarden
New
absence Request to enter
Request approval Approved ?
value ? in dimTable
Typical Time Frame: 2 weeks
Workload + Follow-Up: manually
Zekerheid omtrent correctheid van maandelijks rapport ?
22. DATA GOVERNANCE
WORKFLOW
Data
No Decision on
Quality Create/Update Address the
solving the
Rules Meta Data issues
defects
Accurate
Yes
Create Inventory
List of Defects
Give all issues Revisit
an Impact Profile Data Documentation Report Findings
Weight and Weights
23. WAAR DATA ISSUES
OPLOSSEN ?
• In operationeel systeem ?
• In ETL ?
• In data warehouse ?
• Twee belangrijke factoren
• Kost
• Risico
24. WAAR DATA ISSUES
OPLOSSEN ?
• Voorbeeld: afwezigheidsregistratie systeem
• ‘Eenvoudige’ oplossing
• Beschrijving = drop down met voorgedefinieerde velden
• Maar … externe applicatie
• Change duurt 3 maanden
• Kost voor change € 10K
• Alternatieve oplossing
• Interne ETL oplossing
• Zekerheid over correctheid van data ?
• Kosten / Risico’s indien rapporten niet correct zijn ?
• Andere ETL procedure nodig ?
25. CONCLUSIES
• Data kwaliteit en data governance zijn ook een Business issue
• Business neemt de beslissingen
• IT implementeert
• Data kwaliteit begint bij definities van hoe de data er moet uitzien
• Data issues komen ook en vaak voor in data warehouses.
• Beperk U bij data governance projecten dus niet tot monitoren
van opeartionele systemen
• Bij elke onderkende issue is het nodig om te evalueren wat kost en
risico’s zijn voor het fixen van de issue
• Kijk daarbij verder dan Uw neus lang is