2. Inhalt
Warum ist die Datenqualiät von Bedeutung für Open Data?
Wer kann sich an der Qualitäts-Verbesserung beteiligen?
Das Projekt ADEQUATe - Zielsetzungen
Metriken zur Datenqualitätsmessung auf offenen Datenportalen
Funktionen eines Qualitäts-Community-Portals
Fragestellungen und Ausblick
2
3. Datenqualität im Life Cycle - Perspektivenwandel
Anforderung /
Wunsch
Datenmonitoring
Priorisierung
Veröffentlichung
Kommunikation
Nutzung
3
Krabina, Bernhard, Thomas Prorok, und Brigitte Lutz. 2012. „Open Government
Vorgehensmodell“. Vorgehensmodell V2.0. Wien: KDZ.
http://www.kdz.eu/de/webfm_send/1206.
Campi, Alessandro, Matteo Aletti, Yao Cheng, Piero Franceschini, Mariangela Rizzo, und
Davide Sanapo. 2016. „Empowering the E-government data life cycle“. Zugegriffen Juni 6.
https://www.w3.org/2013/04/odw/odw13_submission_16.pdf
5. Dateninhalte und Formate
○ I would really prefer to have the data themselves consistent. [...] metadata does not
match; standards regarding the representation of their content
○ It would be really great if we could shift somehow to UTF-8
○ meta data for CSV files were incomplete [...] header for CSV was missing
○ no static identifiers for objects in data sets. This in turn leads to problems if you want
to track changes related to these objects over time
Wünsche und Berichte der DatenbenutzerInnen
5
6. Kommunikation
○ central communication point for exchanging experiences and issues
○ Meta data should be written in English language
Zuverlässigkeit
○ Servers are restarted every day [...] hosted data becomes unavailable
Wünsche und Berichte der DatenbenutzerInnen
6
8. Wer kann sich an der Qualitäts-Verbesserung
beteiligen?
Publishers Algorithms Community
8
9. Beteiligung an der Qualitäts-Verbesserung (1/2)
Datenbereitsteller
Korrektheit und Vollständigkeit der Metadaten und Daten
Verfügbarkeitsgarantie
Kontaktadresse und Bereitschaft für Feedback/Diskussionen
Algorithmen
Automatische Verbesserung
Qualitätskontrolle (Verfügbarkeitsüberprüfung, Fehlende oder falsche Informationen)
Verbesserung der Metadaten ( z.b. Korrektes Format, Grösse, Encoding)
9
10. Beteiligung an der Qualitäts-Verbesserung (2/2)
Community
Feedback an den Datenbereitsteller (z.b. Wenn daten nicht verügbar sind, oder für
Verbesserungsvorschläge)
“Forken” von Daten
Einen bestehenden Datensatz kopieren und die verbesserte Version bereitstellen
….
Mehr Informationen dazu später in der Präsentation
10
13. Was ist ?
✓ 3 Partners:
1. Semantic Web Company
2. Donau Universität Krems
3. WU Wien
✓ 30 Monate Projektlaufzeit von Okt. 2015 - Mai 2018
✓ 2 Usecase Partner: data.gv.at & opendataportal.at
✓ Ziel: Verbesserung der Datenqualität durch
Qualitätsmonitoring & Kontrolle
13
15. Verschiedene Dimensionen und Details (1/2)
Wie ausführlich sind die Daten beschrieben?
Gibt es Informationen zur Lizenz, Format, Grösse, Beschreibung, zeitliche und räumliche
Ausdehnung, Kontaktstellen, unterschiedliche Sprachen
Wie komplett sind die Daten?
Fehlende Werte, Fehlende Headers bei CSV
Verfügbarkeit von Daten?
Sind die Daten ein einer offenen Lizenz und Format verfügbar?
CC-BY, CSV vs. XLS
15
16. Konformanz mit existierenden Standards?
Dateiformat
Lizenz ID
Datumsangaben (ISO standard?)
Wie akkurate sind die Daten beschrieben?
Richtiges Dateiformat, Grösse, Encoding, Updatezyklus, zeitliche & räumliche Ausdehnung
Wie einheitlich sind die Daten veröffentlicht?
Gleiches Schema für unterschiedliche Versionen ( e.g. gleiche Headers und anzahl Spalten)
Verschiedene Dimensionen und Details (2/2)
16
18. Open Data Portal Watch
261 Open Data portals
Weekly snapshots &
Quality assessment
6 QUality dimensions
19 quality metrics
Focused on metadata
http://data.wu.ac.at/portalwatch/ 18
22. Identifizieren - Beheben - Zurückgeben
22
Kontrolle von automatisierten
Datenverbesserungen:
Formate, Encodings,
Identifikation von Konzepten
Behebung von Datenfehlern
Anreicherungen und
Transformationen von Daten
https://github.com/antontarasenko/gpq/blob/master/notebooks/contracts_intro.ipynb
23. Kontakt und Team
23
Jürgen Umbrich
Vienna University of Economics and Business
Juergen.umbrich @ wu.ac.at
Johann Höchtl
Donau-Universität Krems
Johann.hoechtl @ donau-uni.ac.at
http://adequate.at/
http://vienna.theodi.org