Construire un data lake managé - GDG Paris - Juin 2019

Construire un Data lake managé
1
Sur Google Cloud
Construire un Data lake managé Sur Google Cloud

Ivan Beauvais
Cloud Data engineer
@ibeauvais
Nicolas Dechandon
Cloud Data engineer
@ndechandon
Jean-Baptiste Claramonte
Cloud Data engineer
@jbclaramonte
2
Qui sommes nous ?

#On-premise #Migration #Cloud GCP #Use cases
3
Construire un Data lake managé Sur Google Cloud

Comment je stocke mes données ?
Comment je les intègre ?
Comment je maîtrise mon data lake ?
Comment je les exploite?
Comment j'orchestre des traitements ?
4
Plan

5

Mes données
non structurées
structurées
Cloud Storage
Big Query
Mes services de
stockage
6

Cloud Storage
Qu’est ce que c’est ?
● Du stockage objet (S3)
● Réparti dans des buckets
● Les fichiers appelés objets sont immuables
● Identifiés par un id qui abstrait la technique
de stockage.
● Pas de limite sur la taille ou le format
● La rapidité du service permet d'être un
cache
7
Cloud storage

Cloud Storage
Comment interagir ?
● CLI : gsutil
● API :REST
● Client : C++, C#, Go, Java, Node.js, PHP,
Python, Ruby
Au quotidien on a l’impression d’interagir avec un
“file system”
Typiquement pour déposer des fichiers plats tels
que des CSV ou JSONL
Cloud
Storage
gsutil ...
8
Cloud storage

● Entrepôt de données
● Serverless
● Centaines de Tera à l’infini
● Requêtage avec une syntaxe type SQL
● On paye pour le stockage et la quantité
de données scannées
BigQuery = data
warehouse
SQL Stockage
10
Bigquery

Big Query
bq ...Comment interagir ?
● CLI : bq
● API : REST
● Client : C#, Go, Java, Node.js, PHP,
Python, Ruby
On charge ou exporte les données depuis GCS
avec ou sans schéma
11
Bigquery

12
Console pour exécuter des requêtes dans Big Query

Comment je maîtrise mon data lake
?
Comment j'orchestre des traitements
?
13
Plan

14

Les outils pour intégrer les sources de données
Cloud
Dataﬂow Big Query
Cloud
Pub/Sub
15

Qu’est-ce-que c’est ?
★ La solution de messages
asynchrones de GCP
★ Managé, serverless et scalable
★ Taille max d’un message : 10 Mo
★ Livraison des messages
“at-least-once”
● Donc les consommateurs
doivent se protéger des
éventuelles doublons
16
Cloud Pub/Sub

One to Many
Cloud Pub/Sub
17

Cloud Pub/Sub
18
Many to One

Cloud Pub/Sub
19
Many to Many

Stockage et Consommation des
messages
● Les consommateurs se branchent à une
“Souscription”
● Sans “Souscription” les messages sont
perdus
● Les messages sont stockés 7 jours
Pub/Sub
Souscription 1
Pub/Sub
Souscription 2
Cloud
Pub/Sub
20

Exemples d’utilisation
Cloud
Storage
Cloud
Pub/Sub
21
Object
event
Cloud
Pub/Sub
trigger
Cloud
Functions
Cloud
Dataﬂow
Cloud
Pub/Sub
stream

Pour intégrer, préparer et analyser de
très large volume de données en batch
ou en streaming temps réel (modèle
unifié)
Dataflow s’occupe de scaler
automatiquement le nombre de
machinesCloud
Dataﬂow
22
Dataﬂow

Cloud
Dataﬂow
23
Un exemple de pipeline.

Google a ouvert le code avec
Apache Beam
Cloud
Dataﬂow
24

Nativement en Java
Autres langages disponibles:
● python, go, SQL
● scala possible avec scio (par
Spotify)
25

Repose sur le principe de “runner” qui
font l’abstraction de la cible d’exécution,
ainsi il est possible d’exécuter un
pipeline Beam sur:
● Dataflow
● Direct (machine local)
● Spark
● Flink
26

● En streaming
● Insertion et mise à jour en DML
(INSERT & UPDATE)
● Chargement depuis des fichiers :
○ CSV,
○ JSON (new line delimited),
○ Parquet,
○ Avro,
○ ORC
27
Méthodes d’ajout de données
BigQuery

L’essentiel du coût vient du requêtage
Il existe des optimisations possible pour rendre les
requêtes moins coûteuse (et plus rapide au passage)
● Partitionner une table par date
● Clustering sur des champs
Optimisation du requêtage
28

Exemple de scénarios d’intégration possibles
BigQueryCloud
Dataﬂow
29

Cloud
Pub/Sub
BigQueryCloud
Dataﬂow
stream de données
30

Cloud
Pub/Sub
BigQueryCloud
Dataﬂow
Cloud Storage
gsutil cp ... notif
new file
31
access
file

?
?
32
Plan

Travailler avec la donnée
SQL
notebook
PythonLibraries
Spark
Systèmes existants
● Visualiser
● Explorer
● Calculer
● ...
34
Comment je les exploite ?

3 Grandes catégories
BigQuery
Cloud
Dataﬂow
Cloud
Dataproc
Cloud Machine
Learning Engine
BigQuery BigQuery
BigQuery
35

BigQuery pour l’exploration et le calcul
BigQuery
Query standard SQL
(SQL 2011 compliant)
Create Table From
Query
BigQuery ML
DML : create, update,
merge
Copy table
36

BigQuery pour l’exploration et le calcul
Web UI
bq (CLI)
BigQuery
37Custom Application
Cloud
Datalab
API
Services Google Cloud

BigQuery pour
l’exploration et le calcul
👍 Scalabilité infinie en théorie
👍 Rapidité, fiabilité
👍 Sécurité & permissions simplifiées
👍 Facturation à l’usage
👎 SQL seulement pour manipuler les
données
👎 Limité par les fonctionnalités de BigQuery
38
BigQuery

Et le data-scientist dans tout ça ?
BigQuery
?!
39

Calcul avec un autre service managé
BigQuery Cloud Storage
export : csv, avro, json
Cloud Dataproc
BigQuery
import : csv, avro, json, parquet
Cloud Storage
40

Dataproc le cluster Hadoop à la demande
Cloud Dataproc
● Create hadoop Cluster
● Submit Job : Spark,
hadoop, pig ..
● Delete Cluster
● Upscaling cluster
● Downscaling cluster
● Automatic deletion
Read/write
Cloud Storage
41

Calcul dans un autre service
Google Cloud
👍 Bénéficier des fonctionnalités
supplémentaires: Spark, Bibliothèques
Python, Tensor Flow
👍 Ressources de calcul créées au besoin
👍 Rapidité pour passer d’un monde à un autre
en restant dans la même zone/région
👎 Nécessite l’export import des données et
donc de l’orchestration supplémentaire
👎 Ressource de calcul à dimensionner
soi-même
BigQuery Cloud
Storage
Cloud
Dataproc
Cloud Machine
Learning Engine
42

Calcul dans un service
externe
👍 Uniquement pour la compatibilité avec un
système existant
👎 Nécessite l’export import des données
👎 Coût du réseau pour récupérer les
données
BigQuery
43

Exploiter la donnée
● Choisir le bon outil en fonction du
besoin :
○ BigQuery si SQL suffit
○ Autres Services managés pour les
autres
○ Service externe si pas le choix
● Données et unités de calcul dans la
même région/zone
● Utiliser l’import export BigQuery
● Privilégier avro/parquet pour les
échanges
● Créer des ressources de calcul au
besoin
44

?
?
45
Plan

46
Comment j’orchestre des traitements ?

Besoin d’orchestration ?
Import
BigQuery
Create
Cluster
Launch Job
Monthly
Export
Table 1
Export
Table 2
Remove
Cluster
Load
BigQuery
Archive Csv
Merge Table
Incoming
CSV
Notify
PubSub
Import
BigQuery
Create
Cluster
Launch Job
Monthly
Export
Table 1
Export
Table 2
Remove
Cluster
Load
BigQuery
Archive Csv
Merge Table
Incoming
CSV
Notify
PubSub
47

Cloud Functions
call HTTP
Cloud Functions
Triggers:
Languages:
Cloud Pub/Sub
Cloud Storage
48
Comment j’orchestre des traitement

👍 Serverless
👍 Simple à utiliser
👍 Javascript, Python ou Go
👍 Facturation à l’appel
👎 Mémoire et temps de calcul limité
👎 Pour des tâches simples
Cloud Functions
49

👍 Simple pour consommer et produire des
événements
👍 Suivi des différentes étapes du workflow de
traitement
👍 Permet de développer des logiques
complexes
👎 Logique d’orchestration à coder
👎 Uniquement sur événements
Cloud Dataﬂow
50

Cloud Composer
● Apache Airflow managé
● Une tâche = un opérateur
● De nombreux opérateurs pour
Google Cloud
● Un ensemble de tâche = un
DAG
● Chaque DAG est schedulé
● Gestion des permissions :
permet de planifier des tâches
dans des projets différents
● Workflow du dag écrit en Python
51

Airflow
Dag
start_date
scheduler_interval
Tasks
DataprocClusterCreateOperator
BigQueryOperator
DataProcSparkOperator
DataprocClusterDeleteOperator
52

Airflow : dag visualisation
53

Cloud composer pour
l’orchestration
👍 Démarrage de tâches planifiées
👍 Permet de gérer des enchaînements de
tâches complexes
👍 Web UI de suivi des jobs/tâches
👍 Reprise des tâches dans le passé
👎 Complexe
👎 Coût
👎 Mise en place
👎 Pas fait pour coder une logique trop
complexe
Cloud Composer
54

Orchestration
● Choisir le bon service à utiliser :
○ Tâches simples et rapides dans un
même projet : Cloud Functions
○ Tâches basées sur des
événements, et/ou logique
complexe : Dataflow
○ Workflow de tâches, déclenché
périodiquement : Cloud Composer
● Avoir des taches idempotentes
● Privilégier les petits workflows
de traitement
55

?
?
56
Plan

57

La disponibilité
L’intégrité
La confidentialitéLa traçabilité
L’authentification
La non répudiation
Que dois je maîtriser ? 58

Quels sont mes droits et
devoirs ?
Avant d’utiliser un service en production il faut
connaître notre responsabilité
“AWS est responsable de la protection de
l'infrastructure exécutant tous les services proposés
dans le cloud AWS”
“La responsabilité du client sera déterminée en
fonction des services cloud d'AWS que ce dernier
choisit”
provided by AWS
59

provided by CloudOnMove
La responsabilité partagée.
60
Comment je maîtrise mon data lake?

Cloud Deployment
Manager
La disponibilité - SAAS
● Être capable de consommer
(facturation)
● Maîtriser la configuration et la
reproduire facilement entre des
environnements
Infra as code
Mes devoirs lors d’un service SAAS
● Organisation
● Dossier
● Projet
● IAM
● Ressources 80%
● IAM
● Projet
● Ressources 50%
61

La disponibilité - PAAS
● Application résistante
(Autoscaling)
● Application robuste (Auto
healing, Retry, Circuit Breaker...)
● Monitoring et alerting complète
Mes devoirs lors d’un service PAAS
Stackdriver
Logging
Tracing
Monitoring
● métriques spécifiques
● alertes
62

L'authentification
Cloud Identity pour gérer l’authentification des
utilisateurs
● Nativement lié à GSuite
● Synchronisation d’un AD possible
● Créer des groupes
Les services account pour gérer
l’authentification des machines.
● Attention à la diffusion des clefs et leurs
rotations
Reposez vous sur l’existant.
63

La confidentialité
● Protection par GCP
○ Chiffrement des communications “at
REST”
○ Chiffrement des supports
64
● Notre responsabilité
Les rôles et leur héritages sont critiques.
● Organisation
● Projets communs
● Dossiers d’équipes
● Dossier d’applications
● Projets
● Ressources

L’intégrité - des données
● Projets producteurs.
● Projets consommateurs.
● Projets dépôts
Notre vision
Nos règles
● Toutes les sources sont conservées
● Une table est processée par un seul
“traitement”
● Toutes nos opérations sont
idempotentes
● Les tables ou leurs partitions sont
immuables
65
Dépôts de donnéesProducteurs de données
Consommateur

La traçabilité - des données
Suivi des préconisations RGPD
● Registre de traitement
● Lineage
○ source de données
○ ligne
66

La non répudiation
La non répudiation de l'origine prouve que
les données ont été envoyées,
La non répudiation de l'arrivée prouve
qu'elles ont été reçues.
● Les services accounts
○ un compte par correspondant
○ attention aux clés et leurs
rotations
67

?
?
68
Plan

Construire un data lake managé - GDG Paris - Juin 2019

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Construire un data lake managé - GDG Paris - Juin 2019

Semelhante a Construire un data lake managé - GDG Paris - Juin 2019 (20)

Mais de Jean-Baptiste Claramonte

Mais de Jean-Baptiste Claramonte (7)

Construire un data lake managé - GDG Paris - Juin 2019