SlideShare uma empresa Scribd logo
1 de 32
AGILES DATA MINING 
MIT DATA VAULT 2.0 
TimoCirkel, Michael Olschimke 
Dörffler & Partner GmbH
Vorstellung 
Hintergrund 
Beispiel 
Fazit 
AGENDA 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 2
VORSTELLUNG 
Agiles Data Mining mit Data Vault 2.0 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 3
TIMO CIRKEL 
BI-Consultant 
Certified Data Vault 2.0 Practitioner 
Analyse von Versicherungsnehmern 
Spezialisiert auf CRM, Softwareentwicklung, 
DWH Automatisierung 
Branchen: Versicherungen, Versorger 
B.Sc. Wirtschaftsinformatik 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 4
MICHAEL OLSCHIMKE 
Senior BI-Consultant 
Certified Data Vault 2.0 Practitioner 
Offizieller Data Vault 2.0 Trainer in Europa 
Lehrkraft Hochschule Hannover 
Spezialisiert auf Data Vault 2.0, Data Mining, 
CRM, Projektmanagement 
Branchen: Versicherung, Automobil, Handel, 
Öffentlicher Sektor, Non-Profits 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 5
• Mittelständisches 
Beratungsunternehmen 
• Offizieller Partner von Dan 
Linstedt in Europa 
• Beratung, Schulungen, Umsetzung 
• Branchen: 
• Versicherungen 
• Automobil 
• Banken 
• Handel 
• Pharma 
• Telekommunikation 
DÖRFFLER & PARTNER GMBH 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 6
HINTERGRUND 
Agiles Data Mining mit Data Vault 2.0 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 7
DATA MINING PROJEKT BEI DER VGH 
KFZ-Versicherung 
Kundensegmentierung 
Ein erster Data Mining Pilot, daher: 
Keine konkreten Vorgaben 
Zielvorstellung entwickelt sich 
Agiles Projektvorgehen 
Enge Zusammenarbeit mit Fachbereich 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 8
• Extrahieren von 
Informationen und 
Mustern aus 
vorhandenen Daten 
• Vier (große) 
Kategorien: 
• Segmentierung 
• Klassifikation 
• Vorhersage 
• Assoziation 
• Vielzahl an 
Algorithmen und 
Verfahren verfügbar 
DATA MINING PROJEKTE 
„Der Begriff Data Mining […] 
beschreibt die Extraktion implizit 
vorhandenen, nicht trivialen und 
nützlichen Wissens aus großen, 
dynamischen, relativ komplex 
strukturierten Datenbeständen.“ 
Datenbank 
Anwendung 
Anwender 
Data-Mining- 
Techniken 
Aussagen, Regeln & 
Informationen 
Data Dictionary 
Fachwissen 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 9
DATA VAULT 2.0 MODELLIERUNG 
Surrogate 
Key 
Business 
Keys 
Foreign Keys 
Descriptors 
Eigene Darstellung in Anlehnung an Linstedt, 2014 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 10
DATA VAULT 2.0 VORGEHENSWEISE 
Data Vault 
2.0 
Vorgehens-weise 
Six 
Sigma 
TQM 
Scrum CMMI 
PMP 
SDLC 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 11
DATA VAULT 2.0 VORGEHENSWEISE FÜR DATA MINING 
Vorteile 
• Agile Projektplanung für DWH Projekte 
• Automatisierung und Generierung 
• Schnelle Anpassung von Modelländerungen 
• Inkrementielles Erweitern des Modells = 
inkrementielles Kostenmanagement 
• Zielgerichtete Auslieferung = zweiwöchige Sprints 
• Vorhersagbare und messbare Ergebnisse 
Nachteile 
• Fokus auf Laden von Rohdaten und Produzieren 
der Informationen 
• Wenig Ansatzpunkte für Data Mining 
• Viele Konzepte nicht notwendig für Data Mining 
Projekte 
• Schwierige Skalierbarkeit von Data Mining 
Projekten bezüglichTeamgröße 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 12
CRISP-DM 
Eigene Darstellung in Anlehnung an Chapman, et. al., 2000 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 13
PROZESSMODELL 
Prozessmodell – VGH Kundensegmentierung 
ivv KTC D & P 
Daten in Data Vault 
Modell speichern 
Daten abziehen 
Algorithmus 
auswählen 
Segmentierung 
ausführen 
Ergebnis erzielt? 
Ja 
Ergebnis 
präsentieren 
Ergebnis ok? 
Ende 
Ja 
Start 
Gütefunktion 
erarbeiten 
SQL-Query erstellen 
Relevante VN-Attribute 
ermitteln 
Nein Formel ok? 
Ja 
Nein 
Algorithmen 
erforschen 
Nein 
Geeigneter 
Algorithmus 
gefunden? 
Ja 
Nein 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 14
RAPIDMINER 
 Java-basierte 
Data-Mining- 
Software 
 Eines der 
meistgenutzten 
Data-Mining- 
Werkzeuge 
 Bietet 
 Umgebung für 
Ablaufsteuerung 
 Große Anzahl 
Algorithmen 
 Große Auswahl 
von 
Datenquellen 
Overall Corporate Consultants Academics NGO / Gov’t 
© 2012 Rexer Analytics 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 15
BEISPIEL 
Agiles Data Mining mit Data Vault 2.0 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 16
BEISPIEL 
 AdventureWorks-Datenbank 
 Szenario: 
Werbekampagne für ein neues Fahrrad 
 Identifikation der Zielgruppe 
 Lösungsmethode: 
 Entscheidungsbaumverfahren 
Relevante Attribute in mehreren Iterationen 
identifizieren 
Lachev, 2005, S. 238ff 
Einfaches 
Beispiel 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 17
Agiles Data Mining mit Data Vault 2.0 18 
10066 Datensätze 
Attribute 
Marital 
Status 
Gender 
Yearly 
Income 
Total 
Children 
Education 
Number Cars 
Owned 
Commute 
Distance 
Occupation 
House Owner 
Flag 
Age
ITERATION 1: DATA VAULT 2.0 MODELL 
English 
Education 
Numbers Cars 
Owned 
Gender 
Marital Status 
Sat 
Customer 
Hub 
Customer 
Customer Key 
Commute 
Distance 
Age 
House Owner 
Flag 
English 
Occupation 
Sat Category 
Product 
Category 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 19
ITERATION 1: RAPIDMINER PROZESS 
Datenbeschaffung 
Datenvorbereitung 
Modellierung 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 20
ITERATION 1: DECISIONTREE MODELL 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 21
ITERATION 1: ERGEBNISSE 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 22
ITERATION 2: DATA VAULT 2.0 MODELL 
English 
Education 
Numbers Cars 
Owned 
Gender 
Marital Status 
Sat 
Customer 
Hub 
Customer 
Sat Customer 
Income 
Customer Key 
Commute 
Distance 
Age 
House Owner 
Flag 
English 
Occupation 
Sat Customer 
Children 
Sat Category 
Total 
Children 
Yearly 
Income 
Product 
Category 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 23
ITERATION 2: RAPIDMINER PROZESS 
Datenbeschaffung 
Aufbereitung Modellierung 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 24
ITERATION 2: ERGEBNISSE 
+4.01% 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 25
ITERATION 3: DATA VAULT 2.0 MODELL 
English 
Education 
Numbers Cars 
Owned 
Gender 
Marital Status 
Sat 
Customer 
Hub 
Customer 
Sat Customer 
Income 
Customer Key 
Commute 
Distance 
Age 
House Owner 
Flag 
English 
Occupation 
Sat Customer 
Children 
Sat Category 
Total 
Children 
Yearly 
Income 
Product 
Category 
Commute 
Distance Miles 
CSat Customer 
Distance 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 26
ITERATION 3: RAPIDMINER PROZESS 
Datenbeschaffung 
Aufbereitung Modellierung 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 27
ITERATION 3: ERGEBNISSE 
+0.12% 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 28
FAZIT 
Agiles Data Mining mit Data Vault 2.0 
Agiles 02.12.2014 Data Mining mit Data Vault 2.0 29
FAZIT 
 Data Vault ist ein flexibles Datenmodell, mit sehr guter 
Unterstützung für agiles Projektvorgehen 
 Data Vault Modellierung stellt keine weitere Hürde dar 
Weitere Attribute können jederzeit hinzugefügt werden 
 Nachvollziehbarkeit der Änderungen 
 Keine Änderungen an bestehenden Objekten nötig 
 Prozesse können iterativ erweitert und umgebaut 
werden 
 Vorhandene Prozesse weiterhin lauffähig und können 
jederzeit wiederholt werden 
 Business Vault: transparente Datenaufbereitung 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 30
WEITERFÜHRENDE INFORMATIONEN 
Erscheint 
2015 
verfügbar 
www.doerffler.com www.datavault.de www.learndatavault.com 
Erscheint 
2015 
02.12.2014 Agiles Data Mining mit Data Vault 2.0 31
Give us Feedback 
Agiles Data Mining mit Data Vault 2.0 32 
http://goo.gl/lGO4ZE 
Source: vasilijonline.com 
02.12.2014

Mais conteúdo relacionado

Mais procurados

Performanceaspekte im Oracle DWH
Performanceaspekte im Oracle DWHPerformanceaspekte im Oracle DWH
Performanceaspekte im Oracle DWHTrivadis
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloudinovex GmbH
 
Modellierung agiler Data Warehouses mit Data Vault Dani Schnider
Modellierung agiler Data Warehouses mit Data Vault Dani SchniderModellierung agiler Data Warehouses mit Data Vault Dani Schnider
Modellierung agiler Data Warehouses mit Data Vault Dani SchniderDésirée Pfister
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationTorsten Glunde
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH AutomationTorsten Glunde
 
Die generierte Zeitmaschine - Historisierung auf Knopfdruck
Die generierte Zeitmaschine - Historisierung auf KnopfdruckDie generierte Zeitmaschine - Historisierung auf Knopfdruck
Die generierte Zeitmaschine - Historisierung auf KnopfdruckTrivadis
 
Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.Trivadis
 
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...Trivadis
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesComsysto Reply GmbH
 
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?Guido Schmutz
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceOPITZ CONSULTING Deutschland
 
Middleware Basics für den DBA
Middleware Basics für den DBAMiddleware Basics für den DBA
Middleware Basics für den DBATrivadis
 
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...Markus Flechtner
 
GraphTalk - Semantisches PDM bei Schleich
GraphTalk - Semantisches PDM bei Schleich GraphTalk - Semantisches PDM bei Schleich
GraphTalk - Semantisches PDM bei Schleich Neo4j
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerAndreas Buckenhofer
 

Mais procurados (20)

Performanceaspekte im Oracle DWH
Performanceaspekte im Oracle DWHPerformanceaspekte im Oracle DWH
Performanceaspekte im Oracle DWH
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloud
 
Modellierung agiler Data Warehouses mit Data Vault Dani Schnider
Modellierung agiler Data Warehouses mit Data Vault Dani SchniderModellierung agiler Data Warehouses mit Data Vault Dani Schnider
Modellierung agiler Data Warehouses mit Data Vault Dani Schnider
 
Lambdaarchitektur für BigData
Lambdaarchitektur für BigDataLambdaarchitektur für BigData
Lambdaarchitektur für BigData
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automation
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH Automation
 
Die generierte Zeitmaschine - Historisierung auf Knopfdruck
Die generierte Zeitmaschine - Historisierung auf KnopfdruckDie generierte Zeitmaschine - Historisierung auf Knopfdruck
Die generierte Zeitmaschine - Historisierung auf Knopfdruck
 
Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.
 
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...
 
Amazon Redshift
Amazon RedshiftAmazon Redshift
Amazon Redshift
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
 
Wirksames Stammdatenmanagement
Wirksames StammdatenmanagementWirksames Stammdatenmanagement
Wirksames Stammdatenmanagement
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und Governance
 
Middleware Basics für den DBA
Middleware Basics für den DBAMiddleware Basics für den DBA
Middleware Basics für den DBA
 
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
 
GraphTalk - Semantisches PDM bei Schleich
GraphTalk - Semantisches PDM bei Schleich GraphTalk - Semantisches PDM bei Schleich
GraphTalk - Semantisches PDM bei Schleich
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI Server
 

Semelhante a Agiles Data Mining mit Data Vault 2.0

SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDinovex GmbH
 
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data MeshBATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data MeshBATbern
 
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-PartnerQUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-PartnerQUIBIQ Hamburg
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzenAWS Germany
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...OPITZ CONSULTING Deutschland
 
Erfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
Erfolgsfaktoren einer datengetriebenen Customer-Care-OptimierungErfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
Erfolgsfaktoren einer datengetriebenen Customer-Care-Optimierunginovex GmbH
 
Big-Data solutions based on cyber-physical-systems: Is Industrie 4.0 applicab...
Big-Data solutions based on cyber-physical-systems: Is Industrie 4.0 applicab...Big-Data solutions based on cyber-physical-systems: Is Industrie 4.0 applicab...
Big-Data solutions based on cyber-physical-systems: Is Industrie 4.0 applicab...Sebastian Scholze
 
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdf
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdfENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdf
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdfHans Peter Knaust
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)Praxistage
 
Christoph Mertens_IDSA_Introduction to Data Spaces.pptx
Christoph Mertens_IDSA_Introduction to Data Spaces.pptxChristoph Mertens_IDSA_Introduction to Data Spaces.pptx
Christoph Mertens_IDSA_Introduction to Data Spaces.pptxFIWARE
 
Everything as-a-service Modelle: Als Industriedienstleister die "Fabrik der Z...
Everything as-a-service Modelle: Als Industriedienstleister die "Fabrik der Z...Everything as-a-service Modelle: Als Industriedienstleister die "Fabrik der Z...
Everything as-a-service Modelle: Als Industriedienstleister die "Fabrik der Z...Leadec
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Cloudera, Inc.
 
Innovationen aus der Cloud ganz einfach nutzen
Innovationen aus der Cloud ganz einfach nutzenInnovationen aus der Cloud ganz einfach nutzen
Innovationen aus der Cloud ganz einfach nutzenAmazon Web Services
 
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...Trivadis
 
SAP Cloud Identity Access Governance vs. SAP GRC, Access Control - Ein techn...
 SAP Cloud Identity Access Governance vs. SAP GRC, Access Control - Ein techn... SAP Cloud Identity Access Governance vs. SAP GRC, Access Control - Ein techn...
SAP Cloud Identity Access Governance vs. SAP GRC, Access Control - Ein techn...IBsolution GmbH
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management SolutionTorsten Glunde
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern
 
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenTweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenit-novum
 

Semelhante a Agiles Data Mining mit Data Vault 2.0 (20)

SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
 
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data MeshBATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
 
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-PartnerQUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
 
Modernes Rechenzentrum
Modernes Rechenzentrum Modernes Rechenzentrum
Modernes Rechenzentrum
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
 
Erfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
Erfolgsfaktoren einer datengetriebenen Customer-Care-OptimierungErfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
Erfolgsfaktoren einer datengetriebenen Customer-Care-Optimierung
 
Big-Data solutions based on cyber-physical-systems: Is Industrie 4.0 applicab...
Big-Data solutions based on cyber-physical-systems: Is Industrie 4.0 applicab...Big-Data solutions based on cyber-physical-systems: Is Industrie 4.0 applicab...
Big-Data solutions based on cyber-physical-systems: Is Industrie 4.0 applicab...
 
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdf
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdfENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdf
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdf
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
 
Christoph Mertens_IDSA_Introduction to Data Spaces.pptx
Christoph Mertens_IDSA_Introduction to Data Spaces.pptxChristoph Mertens_IDSA_Introduction to Data Spaces.pptx
Christoph Mertens_IDSA_Introduction to Data Spaces.pptx
 
Everything as-a-service Modelle: Als Industriedienstleister die "Fabrik der Z...
Everything as-a-service Modelle: Als Industriedienstleister die "Fabrik der Z...Everything as-a-service Modelle: Als Industriedienstleister die "Fabrik der Z...
Everything as-a-service Modelle: Als Industriedienstleister die "Fabrik der Z...
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
 
Innovationen aus der Cloud ganz einfach nutzen
Innovationen aus der Cloud ganz einfach nutzenInnovationen aus der Cloud ganz einfach nutzen
Innovationen aus der Cloud ganz einfach nutzen
 
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
 
SAP Cloud Identity Access Governance vs. SAP GRC, Access Control - Ein techn...
 SAP Cloud Identity Access Governance vs. SAP GRC, Access Control - Ein techn... SAP Cloud Identity Access Governance vs. SAP GRC, Access Control - Ein techn...
SAP Cloud Identity Access Governance vs. SAP GRC, Access Control - Ein techn...
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
 
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenTweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
 

Mais de Michael Olschimke

Agile Data Mining with Data Vault 2.0 (english)
Agile Data Mining with Data Vault 2.0 (english)Agile Data Mining with Data Vault 2.0 (english)
Agile Data Mining with Data Vault 2.0 (english)Michael Olschimke
 
Introduction to Salesforce CRM Reporting
Introduction to Salesforce CRM ReportingIntroduction to Salesforce CRM Reporting
Introduction to Salesforce CRM ReportingMichael Olschimke
 
Introduction to Google Analytics
Introduction to Google AnalyticsIntroduction to Google Analytics
Introduction to Google AnalyticsMichael Olschimke
 
Business Concepts for Mobile Applications
Business Concepts for Mobile ApplicationsBusiness Concepts for Mobile Applications
Business Concepts for Mobile ApplicationsMichael Olschimke
 
Technology Concepts for Mobile Applications
Technology Concepts for Mobile ApplicationsTechnology Concepts for Mobile Applications
Technology Concepts for Mobile ApplicationsMichael Olschimke
 
Ethische Entscheidungskompetenz
Ethische EntscheidungskompetenzEthische Entscheidungskompetenz
Ethische EntscheidungskompetenzMichael Olschimke
 

Mais de Michael Olschimke (9)

Agile Data Mining with Data Vault 2.0 (english)
Agile Data Mining with Data Vault 2.0 (english)Agile Data Mining with Data Vault 2.0 (english)
Agile Data Mining with Data Vault 2.0 (english)
 
Introduction to Salesforce CRM Reporting
Introduction to Salesforce CRM ReportingIntroduction to Salesforce CRM Reporting
Introduction to Salesforce CRM Reporting
 
Introduction to Google Analytics
Introduction to Google AnalyticsIntroduction to Google Analytics
Introduction to Google Analytics
 
Visual Data Vault
Visual Data VaultVisual Data Vault
Visual Data Vault
 
Introduction to Piwik
Introduction to PiwikIntroduction to Piwik
Introduction to Piwik
 
Business Concepts for Mobile Applications
Business Concepts for Mobile ApplicationsBusiness Concepts for Mobile Applications
Business Concepts for Mobile Applications
 
Technology Concepts for Mobile Applications
Technology Concepts for Mobile ApplicationsTechnology Concepts for Mobile Applications
Technology Concepts for Mobile Applications
 
Ethische Entscheidungskompetenz
Ethische EntscheidungskompetenzEthische Entscheidungskompetenz
Ethische Entscheidungskompetenz
 
Data Modeling Zone 2013
Data Modeling Zone 2013Data Modeling Zone 2013
Data Modeling Zone 2013
 

Agiles Data Mining mit Data Vault 2.0

  • 1. AGILES DATA MINING MIT DATA VAULT 2.0 TimoCirkel, Michael Olschimke Dörffler & Partner GmbH
  • 2. Vorstellung Hintergrund Beispiel Fazit AGENDA Agiles 02.12.2014 Data Mining mit Data Vault 2.0 2
  • 3. VORSTELLUNG Agiles Data Mining mit Data Vault 2.0 Agiles 02.12.2014 Data Mining mit Data Vault 2.0 3
  • 4. TIMO CIRKEL BI-Consultant Certified Data Vault 2.0 Practitioner Analyse von Versicherungsnehmern Spezialisiert auf CRM, Softwareentwicklung, DWH Automatisierung Branchen: Versicherungen, Versorger B.Sc. Wirtschaftsinformatik 02.12.2014 Agiles Data Mining mit Data Vault 2.0 4
  • 5. MICHAEL OLSCHIMKE Senior BI-Consultant Certified Data Vault 2.0 Practitioner Offizieller Data Vault 2.0 Trainer in Europa Lehrkraft Hochschule Hannover Spezialisiert auf Data Vault 2.0, Data Mining, CRM, Projektmanagement Branchen: Versicherung, Automobil, Handel, Öffentlicher Sektor, Non-Profits 02.12.2014 Agiles Data Mining mit Data Vault 2.0 5
  • 6. • Mittelständisches Beratungsunternehmen • Offizieller Partner von Dan Linstedt in Europa • Beratung, Schulungen, Umsetzung • Branchen: • Versicherungen • Automobil • Banken • Handel • Pharma • Telekommunikation DÖRFFLER & PARTNER GMBH 02.12.2014 Agiles Data Mining mit Data Vault 2.0 6
  • 7. HINTERGRUND Agiles Data Mining mit Data Vault 2.0 Agiles 02.12.2014 Data Mining mit Data Vault 2.0 7
  • 8. DATA MINING PROJEKT BEI DER VGH KFZ-Versicherung Kundensegmentierung Ein erster Data Mining Pilot, daher: Keine konkreten Vorgaben Zielvorstellung entwickelt sich Agiles Projektvorgehen Enge Zusammenarbeit mit Fachbereich 02.12.2014 Agiles Data Mining mit Data Vault 2.0 8
  • 9. • Extrahieren von Informationen und Mustern aus vorhandenen Daten • Vier (große) Kategorien: • Segmentierung • Klassifikation • Vorhersage • Assoziation • Vielzahl an Algorithmen und Verfahren verfügbar DATA MINING PROJEKTE „Der Begriff Data Mining […] beschreibt die Extraktion implizit vorhandenen, nicht trivialen und nützlichen Wissens aus großen, dynamischen, relativ komplex strukturierten Datenbeständen.“ Datenbank Anwendung Anwender Data-Mining- Techniken Aussagen, Regeln & Informationen Data Dictionary Fachwissen 02.12.2014 Agiles Data Mining mit Data Vault 2.0 9
  • 10. DATA VAULT 2.0 MODELLIERUNG Surrogate Key Business Keys Foreign Keys Descriptors Eigene Darstellung in Anlehnung an Linstedt, 2014 02.12.2014 Agiles Data Mining mit Data Vault 2.0 10
  • 11. DATA VAULT 2.0 VORGEHENSWEISE Data Vault 2.0 Vorgehens-weise Six Sigma TQM Scrum CMMI PMP SDLC 02.12.2014 Agiles Data Mining mit Data Vault 2.0 11
  • 12. DATA VAULT 2.0 VORGEHENSWEISE FÜR DATA MINING Vorteile • Agile Projektplanung für DWH Projekte • Automatisierung und Generierung • Schnelle Anpassung von Modelländerungen • Inkrementielles Erweitern des Modells = inkrementielles Kostenmanagement • Zielgerichtete Auslieferung = zweiwöchige Sprints • Vorhersagbare und messbare Ergebnisse Nachteile • Fokus auf Laden von Rohdaten und Produzieren der Informationen • Wenig Ansatzpunkte für Data Mining • Viele Konzepte nicht notwendig für Data Mining Projekte • Schwierige Skalierbarkeit von Data Mining Projekten bezüglichTeamgröße 02.12.2014 Agiles Data Mining mit Data Vault 2.0 12
  • 13. CRISP-DM Eigene Darstellung in Anlehnung an Chapman, et. al., 2000 02.12.2014 Agiles Data Mining mit Data Vault 2.0 13
  • 14. PROZESSMODELL Prozessmodell – VGH Kundensegmentierung ivv KTC D & P Daten in Data Vault Modell speichern Daten abziehen Algorithmus auswählen Segmentierung ausführen Ergebnis erzielt? Ja Ergebnis präsentieren Ergebnis ok? Ende Ja Start Gütefunktion erarbeiten SQL-Query erstellen Relevante VN-Attribute ermitteln Nein Formel ok? Ja Nein Algorithmen erforschen Nein Geeigneter Algorithmus gefunden? Ja Nein 02.12.2014 Agiles Data Mining mit Data Vault 2.0 14
  • 15. RAPIDMINER  Java-basierte Data-Mining- Software  Eines der meistgenutzten Data-Mining- Werkzeuge  Bietet  Umgebung für Ablaufsteuerung  Große Anzahl Algorithmen  Große Auswahl von Datenquellen Overall Corporate Consultants Academics NGO / Gov’t © 2012 Rexer Analytics 02.12.2014 Agiles Data Mining mit Data Vault 2.0 15
  • 16. BEISPIEL Agiles Data Mining mit Data Vault 2.0 Agiles 02.12.2014 Data Mining mit Data Vault 2.0 16
  • 17. BEISPIEL  AdventureWorks-Datenbank  Szenario: Werbekampagne für ein neues Fahrrad  Identifikation der Zielgruppe  Lösungsmethode:  Entscheidungsbaumverfahren Relevante Attribute in mehreren Iterationen identifizieren Lachev, 2005, S. 238ff Einfaches Beispiel 02.12.2014 Agiles Data Mining mit Data Vault 2.0 17
  • 18. Agiles Data Mining mit Data Vault 2.0 18 10066 Datensätze Attribute Marital Status Gender Yearly Income Total Children Education Number Cars Owned Commute Distance Occupation House Owner Flag Age
  • 19. ITERATION 1: DATA VAULT 2.0 MODELL English Education Numbers Cars Owned Gender Marital Status Sat Customer Hub Customer Customer Key Commute Distance Age House Owner Flag English Occupation Sat Category Product Category 02.12.2014 Agiles Data Mining mit Data Vault 2.0 19
  • 20. ITERATION 1: RAPIDMINER PROZESS Datenbeschaffung Datenvorbereitung Modellierung 02.12.2014 Agiles Data Mining mit Data Vault 2.0 20
  • 21. ITERATION 1: DECISIONTREE MODELL 02.12.2014 Agiles Data Mining mit Data Vault 2.0 21
  • 22. ITERATION 1: ERGEBNISSE 02.12.2014 Agiles Data Mining mit Data Vault 2.0 22
  • 23. ITERATION 2: DATA VAULT 2.0 MODELL English Education Numbers Cars Owned Gender Marital Status Sat Customer Hub Customer Sat Customer Income Customer Key Commute Distance Age House Owner Flag English Occupation Sat Customer Children Sat Category Total Children Yearly Income Product Category 02.12.2014 Agiles Data Mining mit Data Vault 2.0 23
  • 24. ITERATION 2: RAPIDMINER PROZESS Datenbeschaffung Aufbereitung Modellierung 02.12.2014 Agiles Data Mining mit Data Vault 2.0 24
  • 25. ITERATION 2: ERGEBNISSE +4.01% 02.12.2014 Agiles Data Mining mit Data Vault 2.0 25
  • 26. ITERATION 3: DATA VAULT 2.0 MODELL English Education Numbers Cars Owned Gender Marital Status Sat Customer Hub Customer Sat Customer Income Customer Key Commute Distance Age House Owner Flag English Occupation Sat Customer Children Sat Category Total Children Yearly Income Product Category Commute Distance Miles CSat Customer Distance 02.12.2014 Agiles Data Mining mit Data Vault 2.0 26
  • 27. ITERATION 3: RAPIDMINER PROZESS Datenbeschaffung Aufbereitung Modellierung 02.12.2014 Agiles Data Mining mit Data Vault 2.0 27
  • 28. ITERATION 3: ERGEBNISSE +0.12% 02.12.2014 Agiles Data Mining mit Data Vault 2.0 28
  • 29. FAZIT Agiles Data Mining mit Data Vault 2.0 Agiles 02.12.2014 Data Mining mit Data Vault 2.0 29
  • 30. FAZIT  Data Vault ist ein flexibles Datenmodell, mit sehr guter Unterstützung für agiles Projektvorgehen  Data Vault Modellierung stellt keine weitere Hürde dar Weitere Attribute können jederzeit hinzugefügt werden  Nachvollziehbarkeit der Änderungen  Keine Änderungen an bestehenden Objekten nötig  Prozesse können iterativ erweitert und umgebaut werden  Vorhandene Prozesse weiterhin lauffähig und können jederzeit wiederholt werden  Business Vault: transparente Datenaufbereitung 02.12.2014 Agiles Data Mining mit Data Vault 2.0 30
  • 31. WEITERFÜHRENDE INFORMATIONEN Erscheint 2015 verfügbar www.doerffler.com www.datavault.de www.learndatavault.com Erscheint 2015 02.12.2014 Agiles Data Mining mit Data Vault 2.0 31
  • 32. Give us Feedback Agiles Data Mining mit Data Vault 2.0 32 http://goo.gl/lGO4ZE Source: vasilijonline.com 02.12.2014

Notas do Editor

  1. In dieser slides nur die logos austauschen. Zum ausprobieren neuer designs /diskutieren haben wir keine zeit
  2. Kurz auf das DM Projekt bei der VGH eingehen. Auf den BI Spektrum Artikel hinweisen Ziele des Projekts Verwendete Tools. CRISP-DM verwendet. Etc. Ggf. Weitere slides aufmachen Namen der Versicherung nennen? Keine konkreten Vorgaben Attribute entwickeln sich über Zeit Begriff „Kunde“ zunächst nicht genau definiert Nur Privatkunden oder auch Firmen? Versicherungsnehmer oder Fahrzeughalter? Welche Vertragsarten? Wie werden „gute“ Kunden bestimmt?
  3. Hubs, Links, Satelliten Kurz erklärt mit VDV. Schau in den Ordner Sources, dort kannst du dich bedienen.
  4. Wir können keine Daten und Erkenntnisse der VGH präsentieren Daher Ausweichen auf AdventureWorks Setup aus Buch übernommen
  5. Kurz auf adenture works dw eingehen Background informationen Modell der relevanten Tabellen 25 attribute, 500k datensätze
  6. Auf das erste DV Modell eingehen.
  7. Demo in rapidminer Auch auf measures eingehen (accuracy, oder precision/recall). Am besten grafisch in RM darstellen.
  8. Scatter matrix Confusion matrix (performance matrix)
  9. Auf die änderungen am DV modell eingehen. Zeigen wie das dann aussieht. Änderungen nachvollziehbar machen (über animationen)
  10. Demo in rapidminer Auch auf measures eingehen (accuracy, oder precision/recall). Am besten grafisch in RM darstellen.
  11. Auf die änderungen am DV modell eingehen. Zeigen wie das dann aussieht. Änderungen nachvollziehbar machen (über animationen)
  12. Demo in rapidminer Auch auf measures eingehen (accuracy, oder precision/recall). Am besten grafisch in RM darstellen.
  13. Was sind die vorteile vom ansatz? Bezug auf das VGH projekt nehmen, aber auch auf die demo
  14. TBC: link überarbeiten (mache ich)