SlideShare uma empresa Scribd logo
1 de 29
Azure Data Factory
Mouvement de données hybride
Jean-Pierre Riehl
Practice Manager Data & BI AZEO
MVP Data Platform
Chapter Leader GUSS
@djeepy1
http://blog.djeepy1.net
Azure Data Factory, c’est quoi ?
Consume, Orchestrate, Transform
 Principe de « Data Pipeline »
 Cloud-ETL ?
Azure Data Factory, c’est quoi ?
« Mouvement de données hybride (mais
principalement dans le Cloud) et Orchestration
des briques Data dans Azure »
Azure Data Factory, les concepts
 Data Factory : représente l’unité de base d’ADF, elle contient des pipelines
 Pipeline : représente le flux qui sera exécuté
 Activité : représente une action réalisée (copie, entrainement de modèle, etc.)
 Jeu de données : définit les données manipulées (colonnes, etc.)
 Tranche : représente une instance d’un jeu de données
 Service Lié : représente une source de données, un service
 Passerelle : permet d’accéder à des ressources On-Prem
L’interface
L’interface est dans le portail Azure
Editeur de code intégré
Assistant pipeline de copie
Interface de monitoring
Objets
Diagnostics et alertes
Vision Diagramme
Gestion du code avec Visual Studio
Diagramme
Solution &
objets
Code JSON
Premiers pas avec ADF
Activités de copie
Assistant de copie
Utilisation de l’assistant de copie
Eléments décortiqués : Service Lié
type définit la source
typeProperties contient les propriétés
propres à la source
 Ex : hiveConfiguration, mlEndpoint
On précisera la Gateway pour les
sources On-Premises
 Possibilité de chiffrer les informations de
connexion (credentials) côté OnPrem
On peut préciser un autre service lié
complémentaire
 Ex : Azure Storage pour HDInsight
Possibilité de faire de On-Demand
{
"name": "Djeepy1SQL",
"properties": {
"type": "OnPremisesSqlServer",
"typeProperties": {
"connectionString": "Data
Source=L0171;Initial Catalog=xxx",
"gatewayName": "SQLServer"
}
}
}
Eléments décortiqués : Jeu de données
type dépend de la source
properties/typeProperties contiennent la
définition
 On précise le service lié
 La structure peut être omise
On peut définir la « disponibilité » du jeu de
données
On peut définir des règles de validation
 Ex : nombre minimum de lignes
On peut définir un partitionnement
 Ex : source de type fichier
Possibilité d’avoir un Scoped Dataset
{
"name": "FactSalesView_Azure",
"properties": {
"type": "AzureSqlTable",
"linkedServiceName": "AzureSQL",
"structure": [],
"typeProperties": {
"tableName": "FactSalesView_Azure"
},
"external": true,
"availability": {
"frequency": "Minute","interval": 30
},
"policy": {}
}
}
Eléments décortiqués : Activité
Référence les Datasets d’entrée et de
sortie, et donc les Services Liés
On peut définir des informations sur les
sources et les destinations
 Ex : le mapping, la requête à exécuter
 Possibilité d’écrire des fonctions
On définit la planification
 Doit être aligné sur la disponibilité du
Dataset de sortie
On peut définir des conditions d’exécution
 Ex : règle de retry
{
"name": "CopyView",
"type": "Copy",
"inputs": [], "outputs": [],
"typeProperties": {
"source": {
"type": "SqlSource",
"sqlReaderQuery": "select * from
dbo.SalesByStoreYear"
},
"sink": {
"type": "SqlSink"
}
},
"policy": { }
"scheduler": { }
}}
Eléments décortiqués : Pipeline
Contient les activités
Détermine quand le pipeline est actif
 Start /End
 IsPaused
{
"name": "CopyTables",
"properties": {
"description": "Copie d'une vue et
d'une requête custom",
"activities": [
...
],
"start": "2016-09-11T20:00",
"end": "2016-09-11T21:00"
}
}
Activité de copie : Source & Sink
Source
• Méta portées par le Dataset et/ou le
pipeline
• Possibilité d’injecter des paramètres
Sink = Destination
• Mapping possible
Propriétés disponibles dépendantes du
Data Store
Au 19/09/2016
Besoin d’une passerelle ?
DMZ
SQL
Cloud On-Prem
Oracle
…
Data
Management
Gateway
OnPrem Data Sources
Azure Data Factory
Activités de calcul
Activités de calcul
Il est possible d’utiliser les briques
Data d’Azure pour réaliser des
opérations :
 HDInsight (HADOOP, Spark, etc.)
 Azure Data Lake
 Azure Machine Learning
Utilisé pour la transformation ou le
calcul
Ex :
 Requêtes Hive / Pig / MapR / U-SQL
 Entrainement de modèle
 Appel WS Azure ML
 etc.
Activités de calcul
2 modes :
 On-Demand
 Bring-your-own
On passe la configuration par des
propriétés dans l’activité JSON
Activités de calcul & Monitoring
Principe de Slicing
La disponibilité et la planification des Datasets conditionnent l’exécution
 On parle de Slice (tranche)
Ce sont les Slices qui vont transiter entre les activités des pipelines
Principe d’alignement des Slices (+ planifications)
Possibilité de partitionnement
Dépendances & Policies
Certaines sources sont « toujours disponibles » (ex : SQL Server)
Principe de Slicing
Alignement de planifications
Partitionnement
Dépendances
Policies
Data source « toujours disponible »
24
25
Activités personnalisées
Activité personnalisée
C’est une classe .NET qui implémente IDotNetActivity
 => (Microsoft.Azure.Management.DataFactories)
Elle tournera dans Azure Batch ou Azure HDinsight
"activities": [ {
...
"linkedServiceName": "HDInsightLinkedService",
"type": "DotNetActivity",
"typeProperties": {
"assemblyName": "SentimentAnalysisService.dll",
"entryPoint":
"SentimentAnalysisService.SentimentAnalysis",
"packageLinkedService": "StorageLinkedService",
"packageFile": ".../SentimentAnalysis.zip",
"extendedProperties": { }
} ]
Créateur de réussites
technologiques.
Pour démarrer ?
Consultez les offres AZEO
• Self-Service BI
• Data Analytics
• BI Agile
Questions?
Merci de votre participation

Mais conteúdo relacionado

Mais procurados

DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraVictor Coustenoble
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingVictor Coustenoble
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationMicrosoft Technet France
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Jean-Pierre Riehl
 
24HOP French 2017 - Azure Data Lake, le Big Data 2.0
24HOP French 2017 - Azure Data Lake, le Big Data 2.024HOP French 2017 - Azure Data Lake, le Big Data 2.0
24HOP French 2017 - Azure Data Lake, le Big Data 2.0Jean-Pierre Riehl
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudVictor Coustenoble
 
De 20 000 à 4 millions d'utilisateurs : mode d'emploi
De 20 000 à 4 millions d'utilisateurs : mode d'emploiDe 20 000 à 4 millions d'utilisateurs : mode d'emploi
De 20 000 à 4 millions d'utilisateurs : mode d'emploiKhanh Maudoux
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big dataacogoluegnes
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Victor Coustenoble
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQLebiznext
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTVictor Coustenoble
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.ithibnico
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...MS Cloud Summit
 
Hadoop et son écosystème - v2
Hadoop et son écosystème - v2Hadoop et son écosystème - v2
Hadoop et son écosystème - v2Khanh Maudoux
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data LakeGUSS
 

Mais procurados (20)

introduction à MongoDB
introduction à MongoDBintroduction à MongoDB
introduction à MongoDB
 
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
 
NoSQL et Big Data
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Data
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisation
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
24HOP French 2017 - Azure Data Lake, le Big Data 2.0
24HOP French 2017 - Azure Data Lake, le Big Data 2.024HOP French 2017 - Azure Data Lake, le Big Data 2.0
24HOP French 2017 - Azure Data Lake, le Big Data 2.0
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le Cloud
 
De 20 000 à 4 millions d'utilisateurs : mode d'emploi
De 20 000 à 4 millions d'utilisateurs : mode d'emploiDe 20 000 à 4 millions d'utilisateurs : mode d'emploi
De 20 000 à 4 millions d'utilisateurs : mode d'emploi
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQL
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoT
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Hadoop et son écosystème - v2
Hadoop et son écosystème - v2Hadoop et son écosystème - v2
Hadoop et son écosystème - v2
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
 

Destaque

Building apps for WP8 and Win8
Building apps for WP8 and Win8Building apps for WP8 and Win8
Building apps for WP8 and Win8Laurent Duveau
 
Azure data factory
Azure data factoryAzure data factory
Azure data factoryBizTalk360
 
Partage et Collaboration avec Power BI
Partage et Collaboration avec Power BIPartage et Collaboration avec Power BI
Partage et Collaboration avec Power BIJean-Pierre Riehl
 
PowerShell DSC: Introduction
PowerShell DSC: IntroductionPowerShell DSC: Introduction
PowerShell DSC: Introductionshchegrikovich
 
Automation: PowerShell & DSC
Automation: PowerShell & DSCAutomation: PowerShell & DSC
Automation: PowerShell & DSCJosh Gillespie
 
Managing PowerShell DSC with Puppet
Managing PowerShell DSC with PuppetManaging PowerShell DSC with Puppet
Managing PowerShell DSC with PuppetPuppet
 
How to Automate Big Data with Ansible
How to Automate Big Data with AnsibleHow to Automate Big Data with Ansible
How to Automate Big Data with AnsibleBigstep
 
Deploying Foreman in Enterprise Environments
Deploying Foreman in Enterprise EnvironmentsDeploying Foreman in Enterprise Environments
Deploying Foreman in Enterprise Environmentsinovex GmbH
 
Power Bi and Power Bi Embedded for .Net Developers
Power Bi and Power Bi Embedded for .Net DevelopersPower Bi and Power Bi Embedded for .Net Developers
Power Bi and Power Bi Embedded for .Net DevelopersHeather Spetalnick
 
DevOps 2016 summit
DevOps 2016 summitDevOps 2016 summit
DevOps 2016 summitChihyang Li
 
Full Stack Automation with Katello & The Foreman
Full Stack Automation with Katello & The ForemanFull Stack Automation with Katello & The Foreman
Full Stack Automation with Katello & The ForemanWeston Bassler
 
Patch Management on Windows with Puppet
Patch Management on Windows with PuppetPatch Management on Windows with Puppet
Patch Management on Windows with PuppetPuppet
 
Linux host orchestration with Foreman, Puppet and Gitlab
Linux host orchestration with Foreman, Puppet and GitlabLinux host orchestration with Foreman, Puppet and Gitlab
Linux host orchestration with Foreman, Puppet and GitlabBen Tullis
 
Introduction to Azure Data Factory
Introduction to Azure Data FactoryIntroduction to Azure Data Factory
Introduction to Azure Data FactorySlava Kokaev
 
Managing your SaltStack Minions with Foreman
Managing your SaltStack Minions with ForemanManaging your SaltStack Minions with Foreman
Managing your SaltStack Minions with ForemanStephen Benjamin
 
Package Management on Windows with Chocolatey
Package Management on Windows with ChocolateyPackage Management on Windows with Chocolatey
Package Management on Windows with ChocolateyPuppet
 
Foreman in your datacenter
Foreman in your datacenterForeman in your datacenter
Foreman in your datacenterlzap
 
Power BI Create lightning fast dashboard with power bi & Its Components
Power BI Create lightning fast dashboard with power bi & Its Components Power BI Create lightning fast dashboard with power bi & Its Components
Power BI Create lightning fast dashboard with power bi & Its Components Vishal Pawar
 

Destaque (20)

Building apps for WP8 and Win8
Building apps for WP8 and Win8Building apps for WP8 and Win8
Building apps for WP8 and Win8
 
Azure data factory
Azure data factoryAzure data factory
Azure data factory
 
Partage et Collaboration avec Power BI
Partage et Collaboration avec Power BIPartage et Collaboration avec Power BI
Partage et Collaboration avec Power BI
 
PowerShell DSC: Introduction
PowerShell DSC: IntroductionPowerShell DSC: Introduction
PowerShell DSC: Introduction
 
Automation: PowerShell & DSC
Automation: PowerShell & DSCAutomation: PowerShell & DSC
Automation: PowerShell & DSC
 
Managing PowerShell DSC with Puppet
Managing PowerShell DSC with PuppetManaging PowerShell DSC with Puppet
Managing PowerShell DSC with Puppet
 
How to Automate Big Data with Ansible
How to Automate Big Data with AnsibleHow to Automate Big Data with Ansible
How to Automate Big Data with Ansible
 
Deploying Foreman in Enterprise Environments
Deploying Foreman in Enterprise EnvironmentsDeploying Foreman in Enterprise Environments
Deploying Foreman in Enterprise Environments
 
AZURE Data Related Services
AZURE Data Related ServicesAZURE Data Related Services
AZURE Data Related Services
 
Power Bi and Power Bi Embedded for .Net Developers
Power Bi and Power Bi Embedded for .Net DevelopersPower Bi and Power Bi Embedded for .Net Developers
Power Bi and Power Bi Embedded for .Net Developers
 
DevOps 2016 summit
DevOps 2016 summitDevOps 2016 summit
DevOps 2016 summit
 
Full Stack Automation with Katello & The Foreman
Full Stack Automation with Katello & The ForemanFull Stack Automation with Katello & The Foreman
Full Stack Automation with Katello & The Foreman
 
Patch Management on Windows with Puppet
Patch Management on Windows with PuppetPatch Management on Windows with Puppet
Patch Management on Windows with Puppet
 
Linux host orchestration with Foreman, Puppet and Gitlab
Linux host orchestration with Foreman, Puppet and GitlabLinux host orchestration with Foreman, Puppet and Gitlab
Linux host orchestration with Foreman, Puppet and Gitlab
 
Introduction to Azure Data Factory
Introduction to Azure Data FactoryIntroduction to Azure Data Factory
Introduction to Azure Data Factory
 
Managing your SaltStack Minions with Foreman
Managing your SaltStack Minions with ForemanManaging your SaltStack Minions with Foreman
Managing your SaltStack Minions with Foreman
 
Package Management on Windows with Chocolatey
Package Management on Windows with ChocolateyPackage Management on Windows with Chocolatey
Package Management on Windows with Chocolatey
 
Foreman in your datacenter
Foreman in your datacenterForeman in your datacenter
Foreman in your datacenter
 
Power BI Overview
Power BI OverviewPower BI Overview
Power BI Overview
 
Power BI Create lightning fast dashboard with power bi & Its Components
Power BI Create lightning fast dashboard with power bi & Its Components Power BI Create lightning fast dashboard with power bi & Its Components
Power BI Create lightning fast dashboard with power bi & Its Components
 

Semelhante a Azure Data Factory, Mouvement de données hybride

Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft
 
4D Summit Europe 2016 - Conférence d'A&C Consulting : "Stocker des données su...
4D Summit Europe 2016 - Conférence d'A&C Consulting : "Stocker des données su...4D Summit Europe 2016 - Conférence d'A&C Consulting : "Stocker des données su...
4D Summit Europe 2016 - Conférence d'A&C Consulting : "Stocker des données su...Nathalie Richomme
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Les données on-premise et dans le cloud. Quelles options ?
Les données on-premise et dans le cloud. Quelles options ?Les données on-premise et dans le cloud. Quelles options ?
Les données on-premise et dans le cloud. Quelles options ?Microsoft
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introOlivier Mallassi
 
la session Patterns azure cloud au Gwab 2014
la session Patterns azure cloud au Gwab 2014la session Patterns azure cloud au Gwab 2014
la session Patterns azure cloud au Gwab 2014Aymeric Weinbach
 
Integration Drupal systemes d'informations
Integration Drupal systemes d'informationsIntegration Drupal systemes d'informations
Integration Drupal systemes d'informationsneuros
 
GUSPQC Québec Avril 2018 - La passerelle de donnees locale
GUSPQC Québec Avril 2018 - La passerelle de donnees localeGUSPQC Québec Avril 2018 - La passerelle de donnees locale
GUSPQC Québec Avril 2018 - La passerelle de donnees localeNicolas Georgeault
 
Monter en charge, tester et surveiller avec une application Windows Azure : l...
Monter en charge, tester et surveiller avec une application Windows Azure : l...Monter en charge, tester et surveiller avec une application Windows Azure : l...
Monter en charge, tester et surveiller avec une application Windows Azure : l...Microsoft Technet France
 
11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .netHamza SAID
 
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...Jean-Pierre Riehl
 
Java in ze Cloud - INSA - nov. 2012
Java in ze Cloud - INSA - nov. 2012Java in ze Cloud - INSA - nov. 2012
Java in ze Cloud - INSA - nov. 2012Alexis Hassler
 
Biztalk summit - IOT
Biztalk summit - IOTBiztalk summit - IOT
Biztalk summit - IOTCellenza
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataGUSS
 

Semelhante a Azure Data Factory, Mouvement de données hybride (20)

Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
4D Summit Europe 2016 - Conférence d'A&C Consulting : "Stocker des données su...
4D Summit Europe 2016 - Conférence d'A&C Consulting : "Stocker des données su...4D Summit Europe 2016 - Conférence d'A&C Consulting : "Stocker des données su...
4D Summit Europe 2016 - Conférence d'A&C Consulting : "Stocker des données su...
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Les données on-premise et dans le cloud. Quelles options ?
Les données on-premise et dans le cloud. Quelles options ?Les données on-premise et dans le cloud. Quelles options ?
Les données on-premise et dans le cloud. Quelles options ?
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
 
la session Patterns azure cloud au Gwab 2014
la session Patterns azure cloud au Gwab 2014la session Patterns azure cloud au Gwab 2014
la session Patterns azure cloud au Gwab 2014
 
Patterns azure cloud
Patterns azure cloudPatterns azure cloud
Patterns azure cloud
 
Adopte une BDD
Adopte une BDDAdopte une BDD
Adopte une BDD
 
Integration Drupal systemes d'informations
Integration Drupal systemes d'informationsIntegration Drupal systemes d'informations
Integration Drupal systemes d'informations
 
GUSPQC Québec Avril 2018 - La passerelle de donnees locale
GUSPQC Québec Avril 2018 - La passerelle de donnees localeGUSPQC Québec Avril 2018 - La passerelle de donnees locale
GUSPQC Québec Avril 2018 - La passerelle de donnees locale
 
Monter en charge, tester et surveiller avec une application Windows Azure : l...
Monter en charge, tester et surveiller avec une application Windows Azure : l...Monter en charge, tester et surveiller avec une application Windows Azure : l...
Monter en charge, tester et surveiller avec une application Windows Azure : l...
 
Big data architectures
Big data architecturesBig data architectures
Big data architectures
 
11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net
 
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
 
Azure Roadshow
Azure RoadshowAzure Roadshow
Azure Roadshow
 
Java in ze Cloud - INSA - nov. 2012
Java in ze Cloud - INSA - nov. 2012Java in ze Cloud - INSA - nov. 2012
Java in ze Cloud - INSA - nov. 2012
 
Biztalk summit - IOT
Biztalk summit - IOTBiztalk summit - IOT
Biztalk summit - IOT
 
mix-it 2011
mix-it 2011mix-it 2011
mix-it 2011
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
 

Mais de Jean-Pierre Riehl

Club Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIClub Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIJean-Pierre Riehl
 
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Jean-Pierre Riehl
 
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...Jean-Pierre Riehl
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...Jean-Pierre Riehl
 
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Jean-Pierre Riehl
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Jean-Pierre Riehl
 
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Jean-Pierre Riehl
 
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataGateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataJean-Pierre Riehl
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Jean-Pierre Riehl
 
From Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIFrom Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIJean-Pierre Riehl
 
Deep Dive DMG (september update)
Deep Dive DMG (september update)Deep Dive DMG (september update)
Deep Dive DMG (september update)Jean-Pierre Riehl
 
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghDeep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghJean-Pierre Riehl
 
Deep Dive Data Management Gateway
Deep Dive Data Management GatewayDeep Dive Data Management Gateway
Deep Dive Data Management GatewayJean-Pierre Riehl
 
TechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesTechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesJean-Pierre Riehl
 
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Jean-Pierre Riehl
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl
 
Attachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardAttachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardJean-Pierre Riehl
 
Power BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesPower BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesJean-Pierre Riehl
 
Fasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data StewardFasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data StewardJean-Pierre Riehl
 

Mais de Jean-Pierre Riehl (20)

Club Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BIClub Power BI - Partage et Collaboration avec Power BI
Club Power BI - Partage et Collaboration avec Power BI
 
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
Université d'été de la DFCG - Parlez-vous Big Data ? Guide de conversation po...
 
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
SQLNexus Copenhaguen - Pipeline for the new oil: Azure Data Factory, Hybrid D...
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
 
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
Transformation d'un skipper en Iron Man grâce à la réalité augmentée et aux c...
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
 
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
Partager et collaborer avec Power BI - SQL Saturday Montreal 2017
 
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem DataGateways to Power BI, Connect PowerBI.com to your On-Prem Data
Gateways to Power BI, Connect PowerBI.com to your On-Prem Data
 
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données Cortana Analytics, de nouveaux patterns pour vos plateformes de données
Cortana Analytics, de nouveaux patterns pour vos plateformes de données
 
From Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BIFrom Personal BI to Managed BI with Power BI
From Personal BI to Managed BI with Power BI
 
Deep Dive DMG (september update)
Deep Dive DMG (september update)Deep Dive DMG (september update)
Deep Dive DMG (september update)
 
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday EdinburghDeep Dive Data Management Gateway - SQLSaturday Edinburgh
Deep Dive Data Management Gateway - SQLSaturday Edinburgh
 
Power BI 365
Power BI 365Power BI 365
Power BI 365
 
Deep Dive Data Management Gateway
Deep Dive Data Management GatewayDeep Dive Data Management Gateway
Deep Dive Data Management Gateway
 
TechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des donnéesTechDays 2015 - La gouvernance des données
TechDays 2015 - La gouvernance des données
 
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
Data Stewardship - Retour d'expérience de Sarenza sur la façon de piloter un ...
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
Attachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data StewardAttachez vos ceintures et écoutez le Data Steward
Attachez vos ceintures et écoutez le Data Steward
 
Power BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des DonnéesPower BI hybride - La Passerelle de Gestion des Données
Power BI hybride - La Passerelle de Gestion des Données
 
Fasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data StewardFasten you seatbelt and listen to the Data Steward
Fasten you seatbelt and listen to the Data Steward
 

Azure Data Factory, Mouvement de données hybride

  • 1. Azure Data Factory Mouvement de données hybride
  • 2. Jean-Pierre Riehl Practice Manager Data & BI AZEO MVP Data Platform Chapter Leader GUSS @djeepy1 http://blog.djeepy1.net
  • 3. Azure Data Factory, c’est quoi ? Consume, Orchestrate, Transform  Principe de « Data Pipeline »  Cloud-ETL ?
  • 4. Azure Data Factory, c’est quoi ? « Mouvement de données hybride (mais principalement dans le Cloud) et Orchestration des briques Data dans Azure »
  • 5. Azure Data Factory, les concepts  Data Factory : représente l’unité de base d’ADF, elle contient des pipelines  Pipeline : représente le flux qui sera exécuté  Activité : représente une action réalisée (copie, entrainement de modèle, etc.)  Jeu de données : définit les données manipulées (colonnes, etc.)  Tranche : représente une instance d’un jeu de données  Service Lié : représente une source de données, un service  Passerelle : permet d’accéder à des ressources On-Prem
  • 6. L’interface L’interface est dans le portail Azure Editeur de code intégré Assistant pipeline de copie Interface de monitoring Objets Diagnostics et alertes Vision Diagramme
  • 7. Gestion du code avec Visual Studio Diagramme Solution & objets Code JSON
  • 12. Eléments décortiqués : Service Lié type définit la source typeProperties contient les propriétés propres à la source  Ex : hiveConfiguration, mlEndpoint On précisera la Gateway pour les sources On-Premises  Possibilité de chiffrer les informations de connexion (credentials) côté OnPrem On peut préciser un autre service lié complémentaire  Ex : Azure Storage pour HDInsight Possibilité de faire de On-Demand { "name": "Djeepy1SQL", "properties": { "type": "OnPremisesSqlServer", "typeProperties": { "connectionString": "Data Source=L0171;Initial Catalog=xxx", "gatewayName": "SQLServer" } } }
  • 13. Eléments décortiqués : Jeu de données type dépend de la source properties/typeProperties contiennent la définition  On précise le service lié  La structure peut être omise On peut définir la « disponibilité » du jeu de données On peut définir des règles de validation  Ex : nombre minimum de lignes On peut définir un partitionnement  Ex : source de type fichier Possibilité d’avoir un Scoped Dataset { "name": "FactSalesView_Azure", "properties": { "type": "AzureSqlTable", "linkedServiceName": "AzureSQL", "structure": [], "typeProperties": { "tableName": "FactSalesView_Azure" }, "external": true, "availability": { "frequency": "Minute","interval": 30 }, "policy": {} } }
  • 14. Eléments décortiqués : Activité Référence les Datasets d’entrée et de sortie, et donc les Services Liés On peut définir des informations sur les sources et les destinations  Ex : le mapping, la requête à exécuter  Possibilité d’écrire des fonctions On définit la planification  Doit être aligné sur la disponibilité du Dataset de sortie On peut définir des conditions d’exécution  Ex : règle de retry { "name": "CopyView", "type": "Copy", "inputs": [], "outputs": [], "typeProperties": { "source": { "type": "SqlSource", "sqlReaderQuery": "select * from dbo.SalesByStoreYear" }, "sink": { "type": "SqlSink" } }, "policy": { } "scheduler": { } }}
  • 15. Eléments décortiqués : Pipeline Contient les activités Détermine quand le pipeline est actif  Start /End  IsPaused { "name": "CopyTables", "properties": { "description": "Copie d'une vue et d'une requête custom", "activities": [ ... ], "start": "2016-09-11T20:00", "end": "2016-09-11T21:00" } }
  • 16. Activité de copie : Source & Sink Source • Méta portées par le Dataset et/ou le pipeline • Possibilité d’injecter des paramètres Sink = Destination • Mapping possible Propriétés disponibles dépendantes du Data Store Au 19/09/2016
  • 17. Besoin d’une passerelle ? DMZ SQL Cloud On-Prem Oracle … Data Management Gateway OnPrem Data Sources Azure Data Factory
  • 19. Activités de calcul Il est possible d’utiliser les briques Data d’Azure pour réaliser des opérations :  HDInsight (HADOOP, Spark, etc.)  Azure Data Lake  Azure Machine Learning Utilisé pour la transformation ou le calcul Ex :  Requêtes Hive / Pig / MapR / U-SQL  Entrainement de modèle  Appel WS Azure ML  etc.
  • 20. Activités de calcul 2 modes :  On-Demand  Bring-your-own On passe la configuration par des propriétés dans l’activité JSON
  • 21. Activités de calcul & Monitoring
  • 22. Principe de Slicing La disponibilité et la planification des Datasets conditionnent l’exécution  On parle de Slice (tranche) Ce sont les Slices qui vont transiter entre les activités des pipelines Principe d’alignement des Slices (+ planifications) Possibilité de partitionnement Dépendances & Policies Certaines sources sont « toujours disponibles » (ex : SQL Server)
  • 23. Principe de Slicing Alignement de planifications Partitionnement Dépendances Policies Data source « toujours disponible »
  • 24. 24
  • 26. Activité personnalisée C’est une classe .NET qui implémente IDotNetActivity  => (Microsoft.Azure.Management.DataFactories) Elle tournera dans Azure Batch ou Azure HDinsight "activities": [ { ... "linkedServiceName": "HDInsightLinkedService", "type": "DotNetActivity", "typeProperties": { "assemblyName": "SentimentAnalysisService.dll", "entryPoint": "SentimentAnalysisService.SentimentAnalysis", "packageLinkedService": "StorageLinkedService", "packageFile": ".../SentimentAnalysis.zip", "extendedProperties": { } } ]
  • 27. Créateur de réussites technologiques. Pour démarrer ? Consultez les offres AZEO • Self-Service BI • Data Analytics • BI Agile
  • 29. Merci de votre participation