45. Jointure flux et référentiel
Hadoop
Traitement
(jointures, transformation)
Flux
Reporting,
exploration
Données de référence
46. Gestion de données
Données brutes
Données
parsées
Traitement et
insertion
Archives Vues Transformations
Avro, GZIP
Rétention permanente
Parquet, Snappy
Rétention 2 ans glissants
Traitement (Cascading)
HDFS BD temps réel
47. Hive, Pig, API-based
UDF : User Defined Function
Hive
+
SQL (non-standard)
Prise en main rapide
Extensible avec UDF
-
Testabilité médiocre
Réutilisabilité médiocre
Pas de contrôle du flot
Logique disséminée
Programmation par UDF
Pig
+
Pig Latin
Prise en main rapide
Extensible avec UDF
-
Testabilité médiocre
Réutilisabilité médiocre
Logique disséminée
Programmation par UDF
API-based
(Spark, Cascading, Flink)
+
API Java
Testable unitairement
Contrôle du flot
Bonne réutilisabilité
-
Programmation nécessaire
48. Les outils SQL (Hive, Spark SQL)
A utiliser une fois les données traitées
Bien pour l’exploration
Ou pour les traitements très simples
Connecteurs JDBC (pour le reporting)
49. Outils intermédiaires (Pig)
Peut contenir de la logique
Pig Latin simple d’accès
Adapté à des traitements “one-shot”...
(ex. : rapports)
50. API-based (Spark, Cascading, Flink)
Pour les traitements plus complexes
Parsing, jointure, nettoyage, dé-duplication, etc
En amont de l’exploration, du reporting
53. Temps réel - approche “classique”
Queues et consommateurs (“workers”)
Coordination des workers
Failover à implémenter
Consommateur
Consommateur
Consommateur
Consommateur
58. Abstrait, mon datacenter?
Additionner les serveurs/VM
Avoir un ensemble de ressources (CPU, RAM)
Demander de la ressource pour une application
Le système se charge de la distribution
71. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
72. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
Utilisateurs,
capteurs, ...
73. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
JSON, XML,
messages,
etc...
74. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
Parsées, dé-
doublonnées,
triées, jointées, ...
Spark,
Cascading,
Python
75. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
Faire
connaissance
avec les données
R, Python, Spark, Hive,
Notebooks (IPython,
Zeppelin)
76. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
Spark MLib,
Python SciKit, R,
Weka, ...
Classification,
prédiction, ...
77. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
Reporting,
visualisation, ...
78. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
Filtre anti-spam, moteur
de recommandations, ...
79. Big data, data science, etc!
Données
brutes
Données
traitées
Nouveau
produit
Communication
Exploration
Modèle,
statistiques
Décisions
Influence sur les
données
81. Pour résumer
Pensez au cloud pour le prototypage
Hadoop n’est pas un SGBDR
Adoptez une approche agile et itérative
Ne négligez pas l’industrialisation des dév.