SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENEVA
HAMBURG COPENHAGEN LAUSANNE MUNICH STUTTGART VIENNA ZURICH
Modellierung agiler Data Warehouses
mit Data Vault
Dani Schnider, Trivadis AG
DOAG Konferenz 2015
Dani Schnider
2
Principal Consultant, Trainer
und DWH/BI Lead Architect
bei Trivadis in Zürich
  Co-Autor des Buches «Data
Warehousing mit Oracle –
Business Intelligence in der
Praxis»
  Certified Data Vault Data
Modeler
19.11.2015 Modellierung agiler Data Warehouses mit Data Vault
Unser Unternehmen.
Modellierung agiler Data Warehouses mit Data Vault3 19.11.2015
Trivadis ist führend bei der IT-Beratung, der Systemintegration, dem Solution
Engineering und der Erbringung von IT-Services mit Fokussierung auf -
und -Technologien in der Schweiz, Deutschland, Österreich und
Dänemark. Trivadis erbringt ihre Leistungen aus den strategischen Geschäftsfeldern:
Trivadis Services übernimmt den korrespondierenden Betrieb Ihrer IT Systeme.
B E T R I E B
KOPENHAGEN
MÜNCHEN
LAUSANNE
BERN
ZÜRICH
BRUGG
GENF
HAMBURG
DÜSSELDORF
FRANKFURT
STUTTGART
FREIBURG
BASEL
WIEN
Mit über 600 IT- und Fachexperten bei Ihnen vor Ort.
Modellierung agiler Data Warehouses mit Data Vault4 19.11.2015
14 Trivadis Niederlassungen mit
über 600 Mitarbeitenden.
Über 200 Service Level Agreements.
Mehr als 4'000 Trainingsteilnehmer.
Forschungs- und Entwicklungsbudget:
CHF 5.0 Mio.
Finanziell unabhängig und
nachhaltig profitabel.
Erfahrung aus mehr als 1'900 Projekten
pro Jahr bei über 800 Kunden.
Modellierung agiler Data Warehouses mit Data Vault5 19.11.2015
Einleitung
Was ist Data Vault?
Modellierung agiler Data Warehouses mit Data Vault6 19.11.2015
  Datenmodellierungsmethode für
Data Warehouses in agilen
Projektumgebungen
  Entwickelt von Dan Linstedt
  Geeignet für DWH Core Layer
bzw. Enterprise DWH
  Optimiert für Agilität, Integration
und Historisierung
3NF
Model
Dimensional
Model
Dimensional
Model
3NF
Model
Data Vault
Model
3NF
Model
OLTP Systeme EDWH / Core Data Marts
Motivation und Vorteile
Modellierung agiler Data Warehouses mit Data Vault7 19.11.2015
Agilität
•  Einfache Erweiterbar-
keit des Data Vault
Modells
•  Kein Redesign
bestehender Elemente
Integration
•  Integration von Daten
aus unterschiedlichen
Quellsystemen
•  Verwendung von
gemeinsamen
fachlichen Schlüsseln
Historisierung
•  Nachvollziehbarkeit
von Datenänderungen
•  Vollständige Histori-
sierung von Daten aus
der Vergangenheit
Grundidee von Data Vault
Modellierung agiler Data Warehouses mit Data Vault8 19.11.2015
  Aufteilung der Daten in
verschiedene Elemente
Hubs
Links
Satellites
Argumente für und gegen Data Vault
Modellierung agiler Data Warehouses mit Data Vault9 19.11.2015
Agiler Ansatz Hohe
Komplexität
Einfache
Erweiterbarkeit
Vollständige
Historisierung
Schwer
verständlich
Nur ein Hype-
Thema
Hohe Flexibilität
Gute Integration
Zu viele Tabellen
Komplexe ETL-
Prozesse
Modellierung agiler Data Warehouses mit Data Vault10 19.11.2015
Elemente von Data Vault
Hub
Modellierung agiler Data Warehouses mit Data Vault11 19.11.2015
Identifikation von fachlicher Entität
  Fachlicher Schlüssel
Keine beschreibenden Attribute
Keine Fremdschlüssel zu anderen Hubs
  Künstlicher Schlüssel als Primary Key
  Audit-Attribute (Ladezeitpunkt, Quellsystem)
Surrogate Key (PK)
Business Key(s) (UK)
Load Timestamp
Record Source
HUB
Link
Modellierung agiler Data Warehouses mit Data Vault12 19.11.2015
Beziehung zwischen zwei oder mehr Hubs
  Fremdschlüssel zu Hubs
Keine beschreibenden Attribute
  Erlaubt n-zu-n Beziehungen zwischen Hubs
  Nur Verbindungen zu Hubs erlaubt
  Künstlicher Schlüssel als Primary Key
  Audit-Attribute (Ladezeitpunkt, Quellsystem)
Surrogate Key (PK)
Foreign Key Hub 1
Foreign Key Hub 2
...
Load Timestamp
Record Source
LINK
Satellite
Modellierung agiler Data Warehouses mit Data Vault13 19.11.2015
Kontextinformationen für Hubs oder Links
  Fremdschlüssel zu genau einem Hub oder Link
  Primary Key: Fremdschlüssel + Ladezeitpunkt
  Beschreibende Attribute
Keine Fremdschlüssel zu anderen Hubs/Satellites
  Audit-Attribut (Quellsystem)
  Mehrere Satellites pro Hub/Link erlaubt
Foreign Key to Hub (PK)
Load Timestamp (PK)
Context Attribute 1
Context Attribute 2
...
Context Attribute n
Record Source
SATELLITE
Beispiel
Modellierung agiler Data Warehouses mit Data Vault14 19.11.2015
Hubs
Links
Satellites
Modellierung agiler Data Warehouses mit Data Vault15 19.11.2015
Design eines Data Vault Modells
Modellierungsprozess
Modellierung agiler Data Warehouses mit Data Vault16 19.11.2015
1.  Fachliche Entitäten definieren:
2.  Beziehungen modellieren:
3.  Beschreibende Attribute festlegen:
Hubs
Links
Satellites
Erweiterung des Data Vault Modells
Modellierung agiler Data Warehouses mit Data Vault17 19.11.2015
Herausforderung bei Datenmodellerweiterungen:
  Strukturänderungen bestehender Tabellen
  Migration historischer Daten
Data Vault Ansatz:
  Bestehende Tabellen nicht verändern
  Nur neue Tabellen hinzufügen
  Keine Datenmigration notwendig
Erweiterung des Data Vault Modells – Beispiel
Modellierung agiler Data Warehouses mit Data Vault18 19.11.2015
Zusätzliche Attribute für Online-Shop:
  Login-Name
  E-Mail-Addresse
Integration mehrerer Quellsysteme
19 19.11.2015
Customer
Database
(A)
Web Shop
Database
(B)
Source Systems
Customer
Online User
✗
✔
Customer_BK Customer_Name
A-123 Claus Jordan
A-456 Dani Schnider
B-0815 Dani Schnider
B-4711 Peter Welker
A-789 Joachim Wehner
B-9876 Claus Jordan
✗
Customer_BK Customer_Name
23489724 Claus Jordan
90346262 Dani Schnider
98437098 Joachim Wehner
82365405 Peter Welker
✔
Modellierung agiler Data Warehouses mit Data Vault
Historisierung
Modellierung agiler Data Warehouses mit Data Vault20 19.11.2015
Nachvollziehbarkeit von Datenänderungen
  Versionierung der Daten in Satellites
  Ladezeitpunkt ist Bestandteil des Satellite PKs
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
Historisierung – Beispiel
Modellierung agiler Data Warehouses mit Data Vault21 19.11.2015
SID TS City
77 t1 ZUERICH
77 t2 Zuerich
77 t4 Zürich
77 t6 Hamburg
77 t8 Basel
SID TS E-Mail
77 t3 abieri@greenmail.ch
77 t5 anna.bieri@yellow.ch
77 t6 a_l_hartmann@web.de
77 t7 anna.bieri@web.de
77 t8 anna@hartmann-bieri.ch
SID Customer_No
77 1234-91415
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
t1 ANNA BIERI, ZUERICH
t2 Anna Bieri, Zuerich
t3 Anna Bieri, Zuerich
abieri@greenmail.ch
t4 Anna Bieri, Zürich
abieri@greenmail.ch
t5 Anna Bieri, Zürich
anna.bieri@yellow.ch
t6 Anna Hartmann-Bieri, Hamburg
a_l_hartmann@web.de
t7 Anna Bieri Hartmann, Hamburg
anna.bieri@web.de
t8 Anna Bieri Hartmann, Basel
anna@hartmann-bieri.ch
Point In Time (PIT) Table
Modellierung agiler Data Warehouses mit Data Vault22 19.11.2015
SID TS City
77 t1 ZUERICH
77 t2 Zuerich
77 t4 Zürich
77 t6 Hamburg
77 t8 Basel
SID TS E-Mail
77 t3 abieri@greenmail.ch
77 t5 anna.bieri@yellow.ch
77 t6 a_l_hartmann@web.de
77 t7 anna.bieri@web.de
77 t8 anna@hartmann-bieri.ch
SID Customer_No
77 1234-91415
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
SID TS S1 S2 S3
77 t1 t1 t1 -
77 t2 t2 t2 -
77 t3 t2 t2 t3
77 t4 t2 t4 t3
77 t5 t2 t4 t5
77 t6 t6 t6 t6
77 t7 t7 t6 t7
77 t8 t7 t8 t8
PIT Table
Modellierung agiler Data Warehouses mit Data Vault23 19.11.2015
ETL-Prozesse
für Data Vault
Laden von Data Vault Tabellen
Modellierung agiler Data Warehouses mit Data Vault24 19.11.2015
  Hubs:
–  Einfügen neuer Business Keys
  Links:
–  Key Lookups auf Hubs
–  Einfügen neuer Beziehungen
  Satellites:
–  Key Lookup auf Hub
–  Deltaermittlung neue Daten / aktuelle Version
–  Einfügen von neuer Version
INSERT
INSERT
INSERT
Laden von dimensionalen Data Marts aus Data Vault
Modellierung agiler Data Warehouses mit Data Vault25 19.11.2015
  Data Vault unterscheidet nicht zwischen Stammdaten
(Dimensionen) und Ereignisdaten (Fakten)
  Fakten und Dimensionen können Daten aus
mehreren Entitäten enthalten
  Join aller benötigten Hubs, Links und Satellites
  SCD1 Dimensionen:
–  Aktuelle Version aller Satellites
  SCD2 Dimensionen:
–  Point In Time (PIT) Tables
–  ev. History View Layer
Ladeschritte
Modellierung agiler Data Warehouses mit Data Vault26 19.11.2015
1.  Paralleles Laden aller Stage-Tabellen
2.  Paralleles Laden aller Hubs
3.  Paralleles Laden
–  aller Links
–  aller Hub Satellites
4.  Paralleles Laden aller Link Satellites
5.  Paralleles Laden aller Dimensionen
6.  Paralleles Laden aller Faktentabellen
Point In Time (PIT) Table – Beispiel
Modellierung agiler Data Warehouses mit Data Vault27 19.11.2015
Ausführliches Beispiel dazu siehe Blog danischnider.wordpress.com
Modellierung agiler Data Warehouses mit Data Vault28 19.11.2015
Data Vault
&
DWH Architektur
ETL Pipeline
Modellierung agiler Data Warehouses mit Data Vault29 19.11.2015
  Verschiedene Arten von Transformationen zwischen Extraktion und Laden
Load
Record
Calculate
D/TStamp
Transform
Cleanse
Validate
Integrate
Extract
  Was wird in welcher DWH-Schicht ausgeführt?
Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 172
Data Warehouse
MartsCleansing Area CoreStaging Area
Metadata
Data Vault
Auswirkungen auf DWH-Architektur
Modellierung agiler Data Warehouses mit Data Vault30 19.11.2015
Source Systems
ETL
BI Plattform
Data Warehouse
Cleansing AreaStaging Area
Metadata
Data Vault
Core Marts
Data Warehouse
Staging Area
Metadata
Raw
Data Vault
Core Marts
Business
Data Vault
Transform
Load
D/TStamp
ETL Pipeline für erweiterte Data Vault Architektur
Modellierung agiler Data Warehouses mit Data Vault31 19.11.2015
Load
Calculate
Cleanse
Validate
Integrate
Extract
Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 173
Integrate
Transform
Calculate
Cleanse
Validate
Extract
Staging Area Data MartsRaw Data Vault Business Data Vault
Common Business Rules
Mart Specific Rules
Modellierung agiler Data Warehouses mit Data Vault32 19.11.2015
Fazit
Data Vault – Chancen und Herausforderungen
Modellierung agiler Data Warehouses mit Data Vault33 19.11.2015
+  Einfache und einheitliche ETL-Regeln
+  Leichte Erweiterbarkeit
+  Integration mehrerer Quellsysteme
+  Vollständige Historisierung
-  Hohe Anzahl Tabellen in Data Vault
-  Konsequente Einhaltung der Regeln
-  Korrekte Wahl der Business Keys
Data Vault – Einsatzgebiete
Modellierung agiler Data Warehouses mit Data Vault34 19.11.2015
  Projekte mit hoher Agilität
–  Häufige Modellerweiterungen
–  Laufend ändernde Anforderungen
  Data Warehouses mit mehreren Quellen
–  Wichtig: Fachliche Schlüssel zwingend
Grosse DWH-Projekte
–  Keine manuelle ETL-Entwicklung
–  Einsatz von DWH-Generatoren
Modellierung agiler Data Warehouses mit Data Vault35 19.11.2015
Trivadis an der DOAG 2015

Ebene 3 - gleich neben der Rolltreppe

Wir freuen uns auf Ihren Besuch. 

Denn mit Trivadis gewinnen Sie immer.

Mais conteúdo relacionado

Mais procurados

DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und Governance
OPITZ CONSULTING Deutschland
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQL
FromDual GmbH
 
Einführung in nosql // ArangoDB mit Symfony 2
Einführung in nosql // ArangoDB mit Symfony 2Einführung in nosql // ArangoDB mit Symfony 2
Einführung in nosql // ArangoDB mit Symfony 2
ArangoDB Database
 

Mais procurados (20)

Die generierte Zeitmaschine - Historisierung auf Knopfdruck
Die generierte Zeitmaschine - Historisierung auf KnopfdruckDie generierte Zeitmaschine - Historisierung auf Knopfdruck
Die generierte Zeitmaschine - Historisierung auf Knopfdruck
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - Supernova
 
Lambdaarchitektur für BigData
Lambdaarchitektur für BigDataLambdaarchitektur für BigData
Lambdaarchitektur für BigData
 
Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.
 
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...
Indexierungsstrategie im Data Warehouse - Zwischen Albtraum und optimaler Per...
 
Raus aus dem Data Vault - Virtualisierung und Logical Warheouse
Raus aus dem Data Vault - Virtualisierung und Logical WarheouseRaus aus dem Data Vault - Virtualisierung und Logical Warheouse
Raus aus dem Data Vault - Virtualisierung und Logical Warheouse
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI Server
 
Trivadis Office365-Azure Case OdA
Trivadis Office365-Azure Case OdATrivadis Office365-Azure Case OdA
Trivadis Office365-Azure Case OdA
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH Automation
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automation
 
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH Konferenz
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH KonferenzPartitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH Konferenz
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH Konferenz
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und Governance
 
Middleware Basics für den DBA
Middleware Basics für den DBAMiddleware Basics für den DBA
Middleware Basics für den DBA
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloud
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQL
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Amazon Redshift
Amazon RedshiftAmazon Redshift
Amazon Redshift
 
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
Die Datenbank ist nicht immer Schuld - Gründe warum Datenbank-Migration schei...
 
Einführung in nosql // ArangoDB mit Symfony 2
Einführung in nosql // ArangoDB mit Symfony 2Einführung in nosql // ArangoDB mit Symfony 2
Einführung in nosql // ArangoDB mit Symfony 2
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management Methode
 

Destaque

Destaque (9)

Data Vault Architektur
Data Vault ArchitekturData Vault Architektur
Data Vault Architektur
 
MT AG Data Vault Generator
MT AG Data Vault GeneratorMT AG Data Vault Generator
MT AG Data Vault Generator
 
Oracle Data Warehouse Integration Builder - Ein Selbstversuch (DOAG 2013)
Oracle Data Warehouse Integration Builder - Ein Selbstversuch (DOAG 2013)Oracle Data Warehouse Integration Builder - Ein Selbstversuch (DOAG 2013)
Oracle Data Warehouse Integration Builder - Ein Selbstversuch (DOAG 2013)
 
Really Big Elephants: PostgreSQL DW
Really Big Elephants: PostgreSQL DWReally Big Elephants: PostgreSQL DW
Really Big Elephants: PostgreSQL DW
 
Agile Data Engineering - Intro to Data Vault Modeling (2016)
Agile Data Engineering - Intro to Data Vault Modeling (2016)Agile Data Engineering - Intro to Data Vault Modeling (2016)
Agile Data Engineering - Intro to Data Vault Modeling (2016)
 
Visual Data Vault
Visual Data VaultVisual Data Vault
Visual Data Vault
 
Data Vault 2.0: Using MD5 Hashes for Change Data Capture
Data Vault 2.0: Using MD5 Hashes for Change Data CaptureData Vault 2.0: Using MD5 Hashes for Change Data Capture
Data Vault 2.0: Using MD5 Hashes for Change Data Capture
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Introduction to Data Vault Modeling
Introduction to Data Vault ModelingIntroduction to Data Vault Modeling
Introduction to Data Vault Modeling
 

Semelhante a Modellierung agliler Data Warehouses mit Data Vault

Semelhante a Modellierung agliler Data Warehouses mit Data Vault (20)

Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
 
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenTweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
 
Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte
Agile Methoden als Erfolgsfaktor für BI und Big Data ProjekteAgile Methoden als Erfolgsfaktor für BI und Big Data Projekte
Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
 
Wide-column Stores für Architekten (HBase, Cassandra)
Wide-column Stores für Architekten (HBase, Cassandra)Wide-column Stores für Architekten (HBase, Cassandra)
Wide-column Stores für Architekten (HBase, Cassandra)
 
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data MeshBATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit Microservices
 
Linked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta LaunchLinked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta Launch
 
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloudGünzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse
 
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-PartnerQUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
 
2010 09 30 11-30 thomas marx
2010 09 30 11-30 thomas marx2010 09 30 11-30 thomas marx
2010 09 30 11-30 thomas marx
 
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
 
PLM-Architektur der Zukunft
PLM-Architektur der ZukunftPLM-Architektur der Zukunft
PLM-Architektur der Zukunft
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
 
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
 
Splunk Webinar: Maschinendaten anreichern mit Informationen
Splunk Webinar: Maschinendaten anreichern mit InformationenSplunk Webinar: Maschinendaten anreichern mit Informationen
Splunk Webinar: Maschinendaten anreichern mit Informationen
 
Agile Data Warehousing mit SAP BW/4HANA
Agile Data Warehousing mit SAP BW/4HANAAgile Data Warehousing mit SAP BW/4HANA
Agile Data Warehousing mit SAP BW/4HANA
 

Mais de Trivadis

Mais de Trivadis (20)

Azure Days 2019: Azure Chatbot Development for Airline Irregularities (Remco ...
Azure Days 2019: Azure Chatbot Development for Airline Irregularities (Remco ...Azure Days 2019: Azure Chatbot Development for Airline Irregularities (Remco ...
Azure Days 2019: Azure Chatbot Development for Airline Irregularities (Remco ...
 
Azure Days 2019: Trivadis Azure Foundation – Das Fundament für den ... (Nisan...
Azure Days 2019: Trivadis Azure Foundation – Das Fundament für den ... (Nisan...Azure Days 2019: Trivadis Azure Foundation – Das Fundament für den ... (Nisan...
Azure Days 2019: Trivadis Azure Foundation – Das Fundament für den ... (Nisan...
 
Azure Days 2019: Business Intelligence auf Azure (Marco Amhof & Yves Mauron)
Azure Days 2019: Business Intelligence auf Azure (Marco Amhof & Yves Mauron)Azure Days 2019: Business Intelligence auf Azure (Marco Amhof & Yves Mauron)
Azure Days 2019: Business Intelligence auf Azure (Marco Amhof & Yves Mauron)
 
Azure Days 2019: Master the Move to Azure (Konrad Brunner)
Azure Days 2019: Master the Move to Azure (Konrad Brunner)Azure Days 2019: Master the Move to Azure (Konrad Brunner)
Azure Days 2019: Master the Move to Azure (Konrad Brunner)
 
Azure Days 2019: Keynote Azure Switzerland – Status Quo und Ausblick (Primo A...
Azure Days 2019: Keynote Azure Switzerland – Status Quo und Ausblick (Primo A...Azure Days 2019: Keynote Azure Switzerland – Status Quo und Ausblick (Primo A...
Azure Days 2019: Keynote Azure Switzerland – Status Quo und Ausblick (Primo A...
 
Azure Days 2019: Grösser und Komplexer ist nicht immer besser (Meinrad Weiss)
Azure Days 2019: Grösser und Komplexer ist nicht immer besser (Meinrad Weiss)Azure Days 2019: Grösser und Komplexer ist nicht immer besser (Meinrad Weiss)
Azure Days 2019: Grösser und Komplexer ist nicht immer besser (Meinrad Weiss)
 
Azure Days 2019: Get Connected with Azure API Management (Gerry Keune & Stefa...
Azure Days 2019: Get Connected with Azure API Management (Gerry Keune & Stefa...Azure Days 2019: Get Connected with Azure API Management (Gerry Keune & Stefa...
Azure Days 2019: Get Connected with Azure API Management (Gerry Keune & Stefa...
 
Azure Days 2019: Infrastructure as Code auf Azure (Jonas Wanninger & Daniel H...
Azure Days 2019: Infrastructure as Code auf Azure (Jonas Wanninger & Daniel H...Azure Days 2019: Infrastructure as Code auf Azure (Jonas Wanninger & Daniel H...
Azure Days 2019: Infrastructure as Code auf Azure (Jonas Wanninger & Daniel H...
 
Azure Days 2019: Wie bringt man eine Data Analytics Plattform in die Cloud? (...
Azure Days 2019: Wie bringt man eine Data Analytics Plattform in die Cloud? (...Azure Days 2019: Wie bringt man eine Data Analytics Plattform in die Cloud? (...
Azure Days 2019: Wie bringt man eine Data Analytics Plattform in die Cloud? (...
 
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
 
TechEvent 2019: Kundenstory - Kein Angebot, kein Auftrag – Wie Du ein individ...
TechEvent 2019: Kundenstory - Kein Angebot, kein Auftrag – Wie Du ein individ...TechEvent 2019: Kundenstory - Kein Angebot, kein Auftrag – Wie Du ein individ...
TechEvent 2019: Kundenstory - Kein Angebot, kein Auftrag – Wie Du ein individ...
 
TechEvent 2019: Oracle Database Appliance M/L - Erfahrungen und Erfolgsmethod...
TechEvent 2019: Oracle Database Appliance M/L - Erfahrungen und Erfolgsmethod...TechEvent 2019: Oracle Database Appliance M/L - Erfahrungen und Erfolgsmethod...
TechEvent 2019: Oracle Database Appliance M/L - Erfahrungen und Erfolgsmethod...
 
TechEvent 2019: Security 101 für Web Entwickler; Roland Krüger - Trivadis
TechEvent 2019: Security 101 für Web Entwickler; Roland Krüger - TrivadisTechEvent 2019: Security 101 für Web Entwickler; Roland Krüger - Trivadis
TechEvent 2019: Security 101 für Web Entwickler; Roland Krüger - Trivadis
 
TechEvent 2019: Trivadis & Swisscom Partner Angebote; Konrad Häfeli, Markus O...
TechEvent 2019: Trivadis & Swisscom Partner Angebote; Konrad Häfeli, Markus O...TechEvent 2019: Trivadis & Swisscom Partner Angebote; Konrad Häfeli, Markus O...
TechEvent 2019: Trivadis & Swisscom Partner Angebote; Konrad Häfeli, Markus O...
 
TechEvent 2019: DBaaS from Swisscom Cloud powered by Trivadis; Konrad Häfeli ...
TechEvent 2019: DBaaS from Swisscom Cloud powered by Trivadis; Konrad Häfeli ...TechEvent 2019: DBaaS from Swisscom Cloud powered by Trivadis; Konrad Häfeli ...
TechEvent 2019: DBaaS from Swisscom Cloud powered by Trivadis; Konrad Häfeli ...
 
TechEvent 2019: Status of the partnership Trivadis and EDB - Comparing Postgr...
TechEvent 2019: Status of the partnership Trivadis and EDB - Comparing Postgr...TechEvent 2019: Status of the partnership Trivadis and EDB - Comparing Postgr...
TechEvent 2019: Status of the partnership Trivadis and EDB - Comparing Postgr...
 
TechEvent 2019: More Agile, More AI, More Cloud! Less Work?!; Oliver Dörr - T...
TechEvent 2019: More Agile, More AI, More Cloud! Less Work?!; Oliver Dörr - T...TechEvent 2019: More Agile, More AI, More Cloud! Less Work?!; Oliver Dörr - T...
TechEvent 2019: More Agile, More AI, More Cloud! Less Work?!; Oliver Dörr - T...
 
TechEvent 2019: Kundenstory - Vom Hauptmann zu Köpenick zum Polizisten 2020 -...
TechEvent 2019: Kundenstory - Vom Hauptmann zu Köpenick zum Polizisten 2020 -...TechEvent 2019: Kundenstory - Vom Hauptmann zu Köpenick zum Polizisten 2020 -...
TechEvent 2019: Kundenstory - Vom Hauptmann zu Köpenick zum Polizisten 2020 -...
 
TechEvent 2019: Vom Rechenzentrum in die Oracle Cloud - Übertragungsmethoden;...
TechEvent 2019: Vom Rechenzentrum in die Oracle Cloud - Übertragungsmethoden;...TechEvent 2019: Vom Rechenzentrum in die Oracle Cloud - Übertragungsmethoden;...
TechEvent 2019: Vom Rechenzentrum in die Oracle Cloud - Übertragungsmethoden;...
 
TechEvent 2019: The sleeping Power of Data; Eberhard Lösch - Trivadis
TechEvent 2019: The sleeping Power of Data; Eberhard Lösch - TrivadisTechEvent 2019: The sleeping Power of Data; Eberhard Lösch - Trivadis
TechEvent 2019: The sleeping Power of Data; Eberhard Lösch - Trivadis
 

Modellierung agliler Data Warehouses mit Data Vault

  • 1. BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENEVA HAMBURG COPENHAGEN LAUSANNE MUNICH STUTTGART VIENNA ZURICH Modellierung agiler Data Warehouses mit Data Vault Dani Schnider, Trivadis AG DOAG Konferenz 2015
  • 2. Dani Schnider 2 Principal Consultant, Trainer und DWH/BI Lead Architect bei Trivadis in Zürich   Co-Autor des Buches «Data Warehousing mit Oracle – Business Intelligence in der Praxis»   Certified Data Vault Data Modeler 19.11.2015 Modellierung agiler Data Warehouses mit Data Vault
  • 3. Unser Unternehmen. Modellierung agiler Data Warehouses mit Data Vault3 19.11.2015 Trivadis ist führend bei der IT-Beratung, der Systemintegration, dem Solution Engineering und der Erbringung von IT-Services mit Fokussierung auf - und -Technologien in der Schweiz, Deutschland, Österreich und Dänemark. Trivadis erbringt ihre Leistungen aus den strategischen Geschäftsfeldern: Trivadis Services übernimmt den korrespondierenden Betrieb Ihrer IT Systeme. B E T R I E B
  • 4. KOPENHAGEN MÜNCHEN LAUSANNE BERN ZÜRICH BRUGG GENF HAMBURG DÜSSELDORF FRANKFURT STUTTGART FREIBURG BASEL WIEN Mit über 600 IT- und Fachexperten bei Ihnen vor Ort. Modellierung agiler Data Warehouses mit Data Vault4 19.11.2015 14 Trivadis Niederlassungen mit über 600 Mitarbeitenden. Über 200 Service Level Agreements. Mehr als 4'000 Trainingsteilnehmer. Forschungs- und Entwicklungsbudget: CHF 5.0 Mio. Finanziell unabhängig und nachhaltig profitabel. Erfahrung aus mehr als 1'900 Projekten pro Jahr bei über 800 Kunden.
  • 5. Modellierung agiler Data Warehouses mit Data Vault5 19.11.2015 Einleitung
  • 6. Was ist Data Vault? Modellierung agiler Data Warehouses mit Data Vault6 19.11.2015   Datenmodellierungsmethode für Data Warehouses in agilen Projektumgebungen   Entwickelt von Dan Linstedt   Geeignet für DWH Core Layer bzw. Enterprise DWH   Optimiert für Agilität, Integration und Historisierung 3NF Model Dimensional Model Dimensional Model 3NF Model Data Vault Model 3NF Model OLTP Systeme EDWH / Core Data Marts
  • 7. Motivation und Vorteile Modellierung agiler Data Warehouses mit Data Vault7 19.11.2015 Agilität •  Einfache Erweiterbar- keit des Data Vault Modells •  Kein Redesign bestehender Elemente Integration •  Integration von Daten aus unterschiedlichen Quellsystemen •  Verwendung von gemeinsamen fachlichen Schlüsseln Historisierung •  Nachvollziehbarkeit von Datenänderungen •  Vollständige Histori- sierung von Daten aus der Vergangenheit
  • 8. Grundidee von Data Vault Modellierung agiler Data Warehouses mit Data Vault8 19.11.2015   Aufteilung der Daten in verschiedene Elemente Hubs Links Satellites
  • 9. Argumente für und gegen Data Vault Modellierung agiler Data Warehouses mit Data Vault9 19.11.2015 Agiler Ansatz Hohe Komplexität Einfache Erweiterbarkeit Vollständige Historisierung Schwer verständlich Nur ein Hype- Thema Hohe Flexibilität Gute Integration Zu viele Tabellen Komplexe ETL- Prozesse
  • 10. Modellierung agiler Data Warehouses mit Data Vault10 19.11.2015 Elemente von Data Vault
  • 11. Hub Modellierung agiler Data Warehouses mit Data Vault11 19.11.2015 Identifikation von fachlicher Entität   Fachlicher Schlüssel Keine beschreibenden Attribute Keine Fremdschlüssel zu anderen Hubs   Künstlicher Schlüssel als Primary Key   Audit-Attribute (Ladezeitpunkt, Quellsystem) Surrogate Key (PK) Business Key(s) (UK) Load Timestamp Record Source HUB
  • 12. Link Modellierung agiler Data Warehouses mit Data Vault12 19.11.2015 Beziehung zwischen zwei oder mehr Hubs   Fremdschlüssel zu Hubs Keine beschreibenden Attribute   Erlaubt n-zu-n Beziehungen zwischen Hubs   Nur Verbindungen zu Hubs erlaubt   Künstlicher Schlüssel als Primary Key   Audit-Attribute (Ladezeitpunkt, Quellsystem) Surrogate Key (PK) Foreign Key Hub 1 Foreign Key Hub 2 ... Load Timestamp Record Source LINK
  • 13. Satellite Modellierung agiler Data Warehouses mit Data Vault13 19.11.2015 Kontextinformationen für Hubs oder Links   Fremdschlüssel zu genau einem Hub oder Link   Primary Key: Fremdschlüssel + Ladezeitpunkt   Beschreibende Attribute Keine Fremdschlüssel zu anderen Hubs/Satellites   Audit-Attribut (Quellsystem)   Mehrere Satellites pro Hub/Link erlaubt Foreign Key to Hub (PK) Load Timestamp (PK) Context Attribute 1 Context Attribute 2 ... Context Attribute n Record Source SATELLITE
  • 14. Beispiel Modellierung agiler Data Warehouses mit Data Vault14 19.11.2015 Hubs Links Satellites
  • 15. Modellierung agiler Data Warehouses mit Data Vault15 19.11.2015 Design eines Data Vault Modells
  • 16. Modellierungsprozess Modellierung agiler Data Warehouses mit Data Vault16 19.11.2015 1.  Fachliche Entitäten definieren: 2.  Beziehungen modellieren: 3.  Beschreibende Attribute festlegen: Hubs Links Satellites
  • 17. Erweiterung des Data Vault Modells Modellierung agiler Data Warehouses mit Data Vault17 19.11.2015 Herausforderung bei Datenmodellerweiterungen:   Strukturänderungen bestehender Tabellen   Migration historischer Daten Data Vault Ansatz:   Bestehende Tabellen nicht verändern   Nur neue Tabellen hinzufügen   Keine Datenmigration notwendig
  • 18. Erweiterung des Data Vault Modells – Beispiel Modellierung agiler Data Warehouses mit Data Vault18 19.11.2015 Zusätzliche Attribute für Online-Shop:   Login-Name   E-Mail-Addresse
  • 19. Integration mehrerer Quellsysteme 19 19.11.2015 Customer Database (A) Web Shop Database (B) Source Systems Customer Online User ✗ ✔ Customer_BK Customer_Name A-123 Claus Jordan A-456 Dani Schnider B-0815 Dani Schnider B-4711 Peter Welker A-789 Joachim Wehner B-9876 Claus Jordan ✗ Customer_BK Customer_Name 23489724 Claus Jordan 90346262 Dani Schnider 98437098 Joachim Wehner 82365405 Peter Welker ✔ Modellierung agiler Data Warehouses mit Data Vault
  • 20. Historisierung Modellierung agiler Data Warehouses mit Data Vault20 19.11.2015 Nachvollziehbarkeit von Datenänderungen   Versionierung der Daten in Satellites   Ladezeitpunkt ist Bestandteil des Satellite PKs SID TS First_Name Last_Name 77 t1 ANNA BIERI 77 t2 Anna Bieri 77 t6 Anna Hartmann-Bieri 77 t7 Anna Bieri Hartmann
  • 21. Historisierung – Beispiel Modellierung agiler Data Warehouses mit Data Vault21 19.11.2015 SID TS City 77 t1 ZUERICH 77 t2 Zuerich 77 t4 Zürich 77 t6 Hamburg 77 t8 Basel SID TS E-Mail 77 t3 abieri@greenmail.ch 77 t5 anna.bieri@yellow.ch 77 t6 a_l_hartmann@web.de 77 t7 anna.bieri@web.de 77 t8 anna@hartmann-bieri.ch SID Customer_No 77 1234-91415 SID TS First_Name Last_Name 77 t1 ANNA BIERI 77 t2 Anna Bieri 77 t6 Anna Hartmann-Bieri 77 t7 Anna Bieri Hartmann t1 ANNA BIERI, ZUERICH t2 Anna Bieri, Zuerich t3 Anna Bieri, Zuerich abieri@greenmail.ch t4 Anna Bieri, Zürich abieri@greenmail.ch t5 Anna Bieri, Zürich anna.bieri@yellow.ch t6 Anna Hartmann-Bieri, Hamburg a_l_hartmann@web.de t7 Anna Bieri Hartmann, Hamburg anna.bieri@web.de t8 Anna Bieri Hartmann, Basel anna@hartmann-bieri.ch
  • 22. Point In Time (PIT) Table Modellierung agiler Data Warehouses mit Data Vault22 19.11.2015 SID TS City 77 t1 ZUERICH 77 t2 Zuerich 77 t4 Zürich 77 t6 Hamburg 77 t8 Basel SID TS E-Mail 77 t3 abieri@greenmail.ch 77 t5 anna.bieri@yellow.ch 77 t6 a_l_hartmann@web.de 77 t7 anna.bieri@web.de 77 t8 anna@hartmann-bieri.ch SID Customer_No 77 1234-91415 SID TS First_Name Last_Name 77 t1 ANNA BIERI 77 t2 Anna Bieri 77 t6 Anna Hartmann-Bieri 77 t7 Anna Bieri Hartmann SID TS S1 S2 S3 77 t1 t1 t1 - 77 t2 t2 t2 - 77 t3 t2 t2 t3 77 t4 t2 t4 t3 77 t5 t2 t4 t5 77 t6 t6 t6 t6 77 t7 t7 t6 t7 77 t8 t7 t8 t8 PIT Table
  • 23. Modellierung agiler Data Warehouses mit Data Vault23 19.11.2015 ETL-Prozesse für Data Vault
  • 24. Laden von Data Vault Tabellen Modellierung agiler Data Warehouses mit Data Vault24 19.11.2015   Hubs: –  Einfügen neuer Business Keys   Links: –  Key Lookups auf Hubs –  Einfügen neuer Beziehungen   Satellites: –  Key Lookup auf Hub –  Deltaermittlung neue Daten / aktuelle Version –  Einfügen von neuer Version INSERT INSERT INSERT
  • 25. Laden von dimensionalen Data Marts aus Data Vault Modellierung agiler Data Warehouses mit Data Vault25 19.11.2015   Data Vault unterscheidet nicht zwischen Stammdaten (Dimensionen) und Ereignisdaten (Fakten)   Fakten und Dimensionen können Daten aus mehreren Entitäten enthalten   Join aller benötigten Hubs, Links und Satellites   SCD1 Dimensionen: –  Aktuelle Version aller Satellites   SCD2 Dimensionen: –  Point In Time (PIT) Tables –  ev. History View Layer
  • 26. Ladeschritte Modellierung agiler Data Warehouses mit Data Vault26 19.11.2015 1.  Paralleles Laden aller Stage-Tabellen 2.  Paralleles Laden aller Hubs 3.  Paralleles Laden –  aller Links –  aller Hub Satellites 4.  Paralleles Laden aller Link Satellites 5.  Paralleles Laden aller Dimensionen 6.  Paralleles Laden aller Faktentabellen
  • 27. Point In Time (PIT) Table – Beispiel Modellierung agiler Data Warehouses mit Data Vault27 19.11.2015 Ausführliches Beispiel dazu siehe Blog danischnider.wordpress.com
  • 28. Modellierung agiler Data Warehouses mit Data Vault28 19.11.2015 Data Vault & DWH Architektur
  • 29. ETL Pipeline Modellierung agiler Data Warehouses mit Data Vault29 19.11.2015   Verschiedene Arten von Transformationen zwischen Extraktion und Laden Load Record Calculate D/TStamp Transform Cleanse Validate Integrate Extract   Was wird in welcher DWH-Schicht ausgeführt? Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 172
  • 30. Data Warehouse MartsCleansing Area CoreStaging Area Metadata Data Vault Auswirkungen auf DWH-Architektur Modellierung agiler Data Warehouses mit Data Vault30 19.11.2015 Source Systems ETL BI Plattform Data Warehouse Cleansing AreaStaging Area Metadata Data Vault Core Marts Data Warehouse Staging Area Metadata Raw Data Vault Core Marts Business Data Vault
  • 31. Transform Load D/TStamp ETL Pipeline für erweiterte Data Vault Architektur Modellierung agiler Data Warehouses mit Data Vault31 19.11.2015 Load Calculate Cleanse Validate Integrate Extract Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 173 Integrate Transform Calculate Cleanse Validate Extract Staging Area Data MartsRaw Data Vault Business Data Vault Common Business Rules Mart Specific Rules
  • 32. Modellierung agiler Data Warehouses mit Data Vault32 19.11.2015 Fazit
  • 33. Data Vault – Chancen und Herausforderungen Modellierung agiler Data Warehouses mit Data Vault33 19.11.2015 +  Einfache und einheitliche ETL-Regeln +  Leichte Erweiterbarkeit +  Integration mehrerer Quellsysteme +  Vollständige Historisierung -  Hohe Anzahl Tabellen in Data Vault -  Konsequente Einhaltung der Regeln -  Korrekte Wahl der Business Keys
  • 34. Data Vault – Einsatzgebiete Modellierung agiler Data Warehouses mit Data Vault34 19.11.2015   Projekte mit hoher Agilität –  Häufige Modellerweiterungen –  Laufend ändernde Anforderungen   Data Warehouses mit mehreren Quellen –  Wichtig: Fachliche Schlüssel zwingend Grosse DWH-Projekte –  Keine manuelle ETL-Entwicklung –  Einsatz von DWH-Generatoren
  • 35. Modellierung agiler Data Warehouses mit Data Vault35 19.11.2015 Trivadis an der DOAG 2015 Ebene 3 - gleich neben der Rolltreppe Wir freuen uns auf Ihren Besuch. Denn mit Trivadis gewinnen Sie immer.