Thinking Big - Big data: principes et architecture
1. Thinking Big
Big Data: The (Rather) New Phenomenon
21/04/2017
Lilia SFAXI
liliasfaxi@gmail.com
LIP2 Laboratory - Team MASTER
Department of Software Engineering and Mathematics, INSAT, Tunis
Tunisia
l
.pLaboratoire d'Informatique, de Parallelisme et de Productiqu
Équipe MASTER
2. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Plan
Le Phénomène Big Data
Un peu d’Histoire
Notions
Les Problématiques des Big Data
Challenges & Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de Recherche
3. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
2Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Il était une fois ...
4. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
2Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Il était une fois ...
World Wide WEB
5. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
3Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 1.0: Web Passif
6. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
4Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 2.0: Web Collaboratif
7. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
5Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Web 3.0: Web Sémantique (?)
8. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
6Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Un peu d’Histoire
Big Data
Terme apparu en premier en 1997
Décrit les défis technologiques à relever pour visualiser un
grand ensemble de données
A pris toute son ampleur avec l’avènement du Web 2.0
9. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
7Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
10. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
7Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Données:
Deuxième bien le plus précieux au monde après l’Information
Différences:
Valeur Ajoutée
Exploitation
Interprétation
DATA
11. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
12. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
IMPORTANT
L’objectif n’est pas de remplacer les systèmes existants
avec les systèmes Big Data, mais de les intégrer
ensemble!
13. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
8Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Big Data = Big + Data
Big: Volume énorme
Question Fréquente
Les systèmes traditionnels ne gèrent-ils pas des données
volumineuses?
Données Massives ou Megadonnées
Exaoctets (1018 o) voire Zettaoctets (1021 o)
90% des données récoltées depuis le début de l’humanité
ont été générées les deux dernières années
14. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Et là, ce n’est que le premier V...
Volume Vélocité
Variété
15. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Volume Vélocité
Variété
16. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
9Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Volume
Variété
Vélocité
17. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
18. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
19. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
Véracité
20. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
10Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Big Data: Notions
Mais encore...
Valeur
Véracité
Visibilité
21. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
22. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
23. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
Arrêter de réfléchir en relationnel!
24. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
11Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Challenges
Stocker d’abord, réfléchir ensuite
Ce sont les données qui pilotent le traitement (et pas le
contraire)
Arrêter de réfléchir en relationnel!
Absolument TOUTES les données sont importantes
(même si elle ne le paraissent pas tout de suite)
25. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume
Vélocité
Variété
26. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité
Variété
27. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité → Traitement
Variété
28. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
12Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Problématiques
3 Problématiques majeures pour les données massives
Volume → Stockage
Vélocité → Traitement
Variété → Collecte
29. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
30. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
31. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
32. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
33. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
34. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
35. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
36. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
13Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématique du Volume
Problème
Comment stocker ces données dont le volume ne cesse
d’augmenter?
Solution
Scale UP vs Scale OUT
⇒ Favoriser le partitionnement
37. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
38. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Répartition de charges
Données réparties sur l’ensemble des noeuds du cluster,
selon une stratégie de partitionnement choisie (aléatoire,
ordonnée..)
Co-localisation du traitement et du stockage
39. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Tolérance aux fautes
Duplication de toutes les données un nombre donné de
fois
Définition d’une stratégie de réplication (simple, par
topologie de réseau..)
Principe de Rack Awareness
40. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
14Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Problématiques du Partitionnement
Problème
Étant donné un système de stockage partitionné (sous
forme de cluster), comment assurer:
La répartition de charges
La tolérance aux fautes
La haute disponibilité
Solution: Haute disponibilité
Assurer une lecture et écriture instantanée des données
Read and Write Anywhere, dans certains systèmes
Éviter les jointures et les transactions, tolérer les
redondances
Favoriser les traitements côté client pour décharger le
système de stockage
41. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
15Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Théorème CAP
Problème
Théorème CAP : Seules deux des trois propriétés
suivantes peuvent être assurées
Consistancy
Availability
Partitionning
42. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
15Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Théorème CAP
Problème
Théorème CAP : Seules deux des trois propriétés
suivantes peuvent être assurées
Consistancy
Availability
Partitionning
Solution
Tolérer une certaine perte de la consistance au profit du
paritionnement et de la haute disponibilité
Remplacer les propriétés ACID par les propriétés BASE
Basically Available
Soft State
Eventual Consistancy
43. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
16Stockage
Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Stockage
Systèmes de Stockage
Apparition d’autres types de systèmes de stockages:
Systèmes de fichiers distribués
Bases de données hautement distribuées (NOSQL)
Bases de données NewSQL
44. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
45. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
46. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
47. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
* Polyglot Programming: Plusieurs langages et paradigmes
de programmation dans une seule application
48. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
17Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Principes Fondamentaux
Déplacer le traitement vers les données
Principe de In-Memory Processing
Savoir être polyglotte
* Polyglot Programming: Plusieurs langages et paradigmes
de programmation dans une seule application
* Polyglot Persistance: Plusieurs technologies de stockage
dans une seule application
49. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
18Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Types de Traitements
Plusieurs types de traitement:
Batch Processing
Stream Processing
Micro-Batch Processing
Real-time Processing
50. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
19Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Batch Processing
Batch Processing
Données collectées, stockées, traitées puis les résultats
fournis
Traitement réalisé sur l’ensemble des données
* Vision globale sur les données stockées
* Traitement peut être lourd et complexe
Plus concentré sur le débit (nb d’actions/unité de temps)
que la latence (temps requis pour obtenir une réponse)
Cible les caractéristiques Volume et Variété
51. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
19Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Batch Processing
Batch Processing
Données collectées, stockées, traitées puis les résultats
fournis
Traitement réalisé sur l’ensemble des données
* Vision globale sur les données stockées
* Traitement peut être lourd et complexe
Plus concentré sur le débit (nb d’actions/unité de temps)
que la latence (temps requis pour obtenir une réponse)
Cible les caractéristiques Volume et Variété
Inconvénients
Faire des traitements récursifs ou itératifs est coûteux
Les données doivent être prêtes avant le début du job
Produit des résultats sur des données anciennes
52. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
20Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Stream Processing
Stream Processing
Traitement sur un élément ou un petit nombre d’éléments
récents
Traitement doit être simple, fait presque en temps réel
Traitements indépendants
Asynchrone
Latence faible
Cible les caractéristiques Vélocité et Variété
53. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
20Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
Stream Processing
Stream Processing
Traitement sur un élément ou un petit nombre d’éléments
récents
Traitement doit être simple, fait presque en temps réel
Traitements indépendants
Asynchrone
Latence faible
Cible les caractéristiques Vélocité et Variété
Inconvénients
Pas de visibilité sur l’ensemble de données
Complexe à maintenir: Système doit être toujours prêt,
toujours connecté, avoir des temps de réponse courts
Risque de perte de données
54. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
21Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
µ-batch et Real-time Processing
µ-batch Processing
Alternative entre Batch et Stream Processing
Traitement du stream comme séquence de petits batchs
Utilisation de files d’attentes
Permet un traitement de données au fil de l’eau, sans
risque de perte de données
55. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
21Traitement
Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Traitement des Données Massives
µ-batch et Real-time Processing
µ-batch Processing
Alternative entre Batch et Stream Processing
Traitement du stream comme séquence de petits batchs
Utilisation de files d’attentes
Permet un traitement de données au fil de l’eau, sans
risque de perte de données
Real-Time Processing
Plutôt approprié pour les traitements synchrones
Réponse du système en temps réel
56. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
22Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Collecte des Données
Problèmes
Collecte de données de sources, formats et types
différents
Homogénéisation et fusion des données
Considération de la vélocité des données
57. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
22Collecte
Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Collecte des Données
Problèmes
Collecte de données de sources, formats et types
différents
Homogénéisation et fusion des données
Considération de la vélocité des données
Solution
Extraction de données et stockage dans des structures de
données réparties en mémoire en attendant leur
traitement
58. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
23Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Choix du Type de Traitement
Souvent, un seul type de traitement n’est pas suffisant
pour une analyse poussée des données
Batch Processing pour une vue globale mais différée
Stream Processing pour des résultats instantanés
Certaines architectures permettent de combiner les deux
types de traitements
59. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
24Lambda Architecture
Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Lambda Architecture
60. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
25Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
61. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
25Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Dans le domaine des Big Data,
TOUT est encore à faire...
62. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
26Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Optimisation
Optimisation du temps de traitement
Optimisation des tailles des données stockées
Optimisation des accès aux données
Tradeoffs entre consistance et disponibilité
Stratégies de partitionnement et de réplication
In-memory vs. persistance
63. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
26Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Optimisation
Optimisation du temps de traitement
Optimisation des tailles des données stockées
Optimisation des accès aux données
Tradeoffs entre consistance et disponibilité
Stratégies de partitionnement et de réplication
In-memory vs. persistance
Data Science
Algorithmes pour la visualisation des données
Data mining, data prediction, data analytics
Analyse des sentiments et analyse sémantique
64. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
27Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data Design
Méthodologies de conception pour les systèmes Big Data
Définition d’architectures de stockages et traitement
65. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
27Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data Design
Méthodologies de conception pour les systèmes Big Data
Définition d’architectures de stockages et traitement
Big Data Security
Sécurité des traitements dans les environnements
distribués
Sécurité des bases de données non-relationnelles
Sécurité des logs
Validation et filtrage des données en entrée
Contrôle d’accès et cryptographie
66. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
28Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data and Other New Trends
Big Data et Business Intelligence
Big Data et Cloud Computing
Big Data et Internet of Things
Big Data et Mobile
67. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
28Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Domaines de Recherche
Big Data and Other New Trends
Big Data et Business Intelligence
Big Data et Cloud Computing
Big Data et Internet of Things
Big Data et Mobile
Big Data and Other Fields
Big Data in Education
Big Data in Health
Big Data in Arts
...
68. 29
Thinking Big
Lilia SFAXI
Le Phénomène Big
Data
Un peu d’Histoire
Notions
Les Problématiques
des Big Data
Challenges &
Problématiques
Stockage
Traitement
Collecte
Lambda Architecture
29Domaines de
Recherche
LIP2 - MASTER
INSAT, Tunis
Tunisie
l
.p Conclusion
Big Data is here to stay!
69. Thinking Big
Big Data: The (Rather) New Phenomenon
21/04/2017
Lilia SFAXI
liliasfaxi@gmail.com
LIP2 Laboratory - Team MASTER
Department of Software Engineering and Mathematics, INSAT, Tunis
Tunisia
l
.pLaboratoire d'Informatique, de Parallelisme et de Productiqu
Équipe MASTER