SlideShare uma empresa Scribd logo
1 de 11
Baixar para ler offline
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Quellesarchitectures
matériellespourhadoop?
Francis Barbeau
Architecte Solution Big Data
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2
Ce que nous demande nos clients et prospects
Les classes de problèmes
Base de discussion : Retour d’expérience clients base installée France
Les classes de problèmes que nous adressent nos prospects et clients
• Exécuter des jobs Map/Reduce sur des fichiers log
• Exécuter des requêtes interactives
• Valider la qualité des données
• Transformer/préparer des données
• Recevoir des flux de messages
• Exécuter des traitements mathématiques statistiques
• Stocker des données à très long terme pour des besoins légaux
• Utiliser des packages logiciels Open Source (Ex Open TSDB)
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3
2 Grands Types de serveurs
Architecture Hadoop : Les serveurs
• Les nœuds de contrôle
• 1 serveur Primary Name Node
• 1 serveur Secondary Name Node / Resource Manager
• 1 Serveur Edge Node
• Les nœuds de traitement
• n serveurs Worker Nodes / Data Nodes
• Rôle du Edge Node
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9
Core Hadoop : HDFS
Self-healing, high bandwidth
1
2
3
4
5
2
1
1
HDFS
1
3
3
4
4
5
2
3
2
5
5
4
HDFS breaks incoming files into blocks and stores themredundantlyacross the cluster.
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4
Les nœuds de contrôle
Architecture Hadoop : Les serveurs
• Les nœuds de control – Name Nodes – Resource Mger
– Dimensionnement de la mémoire
– Type de processeur
– Type de disques
– Format des disques
– Capacité des disques
• Les nœuds de control – Edge Node
– Dimensionnement de la mémoire
– Type de processeur
– Type de disques
– Format des disques
– Capacité des disques
– Haute disponibilité
Serveur 2U de hauteur
8 disques SFF
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5
Les nœuds de traitement
Architecture Hadoop : Les serveurs
• Les nœuds de traitement – Worker/Data Nodes
– La volumétrie utilisateur est déterminante
– Le facteur de réplication dimensionne le cluster
– La capacité des disques dimensionne le nombre de nœuds
– La densité des serveurs a un impact direct sur l’emprise au sol
• Leurs caractéristiques
– Le type de workload détermine leurs caractéristiques
– Type de disques SAS ou SATA ?
– Format des disques
– Capacité des disques
– Type de processeur
– Quantité de mémoire
Serveur 2U de hauteur
12 disques LFF
Châssis de 3 Serveurs
3 x 15 Disques LFF
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6
Illustration de la densité des serveurs
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
SAS
300 GB
15K
ProLiant
DL360p
Gen8
UID
SID
3
4
1
2
5
6 7 8
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
ProLiant
DL360p
Gen8
UID
SID
3
4
1
2
5
6 7 8
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
ProLiant
DL360p
Gen8
UID
SID
3
4
1
2
5
6 7 8
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
UID
ProLiant
DL380e
Gen8
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
SATAMDL
7.2K
2.0TB
Console
49 525150
1000Base-X
5 6 15 1613 1411 129 107 81 2 3 4 21 22 31 3229 3027 2825 2623 2417 18 19 20 37 38 47 4845 4643 4441 4239 4033 34 35 36 H3C S5120 Series
Power
Green=1000Mbps,Yellow=10/100Mbps
HP 5120 Switch Series
Green=10Gbps, Yellow=1Gbps SFP+
Console
10/100/1000Base-T
Speed: Green=1000Mbps, Yellow=10/100Mbps
21 43 65 87 109 1211 242322212019181716151413
Duplex: Green=Full Duplex, Yellow=Half Duplex
Unit
SYS
Mode
Green = Simplex
Yellow = Duplex
25 26
Management
ACTLINK
HP 5820X Series Switch
JG219A
Green=10Gbps, Yellow=1Gbps SFP+
Console
10/100/1000Base-T
Speed: Green=1000Mbps, Yellow=10/100Mbps
21 43 65 87 109 1211 242322212019181716151413
Duplex: Green=Full Duplex, Yellow=Half Duplex
Unit
SYS
Mode
Green = Simplex
Yellow = Duplex
25 26
Management
ACTLINK
HP 5820X Series Switch
JG219A
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
SAS
300 GB
15K
ProLiant
DL360p
Gen8
UID
SID
3
4
1
2
5
6 7 8
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
ProLiant
DL360p
Gen8
UID
SID
3
4
1
2
5
6 7 8
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
ProLiant
DL360p
Gen8
UID
SID
3
4
1
2
5
6 7 8
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
Console
49 525150
1000Base-X
5 6 15 1613 1411 129 107 81 2 3 4 21 22 31 3229 3027 2825 2623 2417 18 19 20 37 38 47 4845 4643 4441 4239 4033 34 35 36 H3C S5120 Series
Power
Green=1000Mbps,Yellow=10/100Mbps
HP 5120 Switch Series
Green=10Gbps, Yellow=1Gbps SFP+
SYS
Management Console
ACTLINK
Green=10Gbps, Yellow=1Gbps SFP+
21 43 65 87 109 1211 242322212019181716151413
10/100/1000Base-T
HP 5920
Series Switch
JG296A
Green=10Gbps, Yellow=1Gbps SFP+
SYS
Management Console
ACTLINK
Green=10Gbps, Yellow=1Gbps SFP+
21 43 65 87 109 1211 242322212019181716151413
10/100/1000Base-T
HP 5920
Series Switch
JG296A
UID
10 134 71
11 145 82
12 156 93
UID
10 134 71
11 145 82
12 156 93
UID
10 134 71
11 145 82
12 156 93
UID UID UID
ProLiant
SL4540
Gen8
UID
10 134 71
11 145 82
12 156 93
UID
10 134 71
11 145 82
12 156 93
UID
10 134 71
11 145 82
12 156 93
UID UID UID
ProLiant
SL4540
Gen8
UID
10 134 71
11 145 82
12 156 93
UID
10 134 71
11 145 82
12 156 93
UID
10 134 71
11 145 82
12 156 93
UID UID UID
ProLiant
SL4540
Gen8
UID
10 134 71
11 145 82
12 156 93
UID
10 134 71
11 145 82
12 156 93
UID
10 134 71
11 145 82
12 156 93
UID UID UID
ProLiant
SL4540
Gen8
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
100To Utilisateur
Version « Serveur Rack »
100To Utilisateur
Version « Serveur Haute Densité »
SAS
300 GB
15K
SAS
300 GB
15K
SAS
300 GB
15K
• Version serveur 2U de hauteur
– 18 serveurs par rack de base
– 19 serveurs par rack additionnel
• Version serveur haute densité
– 7 châssis par rack soit 21 serveurs
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.7
Data at Rest
Chiffrement des données
Le chiffrement des données peut se faire de 3 façons différentes :
• Option 1: Chiffrement des données au niveau de l’OS
• Option 2 : Logiciels partenaires de chiffrement des données
• Option 3 : Chiffrement des données au niveau du matériel et des cartes
contrôleurs disques
Leading storage Secure Encryption
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8
Architecture Hadoop : le réseau
Timeline
Les points d’attention
Network hot spot ! Network hot spot !
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9
Les principes d’architecture
Hadoop les aspects topologies de réseau
• Hadoop est sensible à la bande passante
• Hadoop n’est pas sensible à la latence
• L’utilisation de commutateur “Deep Buffer Caching” est un atout
pour les performances
• La redondance du réseau du cluster est un aspect à considérer
• Topologie réseau « à plat » - Pas de nécessité de disposer de
commutateurs d’agrégation
• Utilisation de câbles DAC 10Gbit ou CATe-6 10Gbit Base T
• Différenciation des réseaux
• Mise en œuvre d’un commutateur out-of-bound-management dédié
Network with IRF stack
IRF Stack
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10
Pour terminer
Conclusion
• Nous disposons d’architectures de référence pour les 3
distributions Cloudera, HortonWorks et MapR
• Les White Papers sont disponibles sur le site web
commercial HP
Exemple de White Paper
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Thankyou

Mais conteúdo relacionado

Semelhante a Quelles architectures matérielles pour Hadoop ?

2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
Patrick Guimonet
 

Semelhante a Quelles architectures matérielles pour Hadoop ? (20)

Propostion un Iaas
Propostion un IaasPropostion un Iaas
Propostion un Iaas
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
 
Exchange 2013 Bonnes pratiques
Exchange 2013 Bonnes pratiques Exchange 2013 Bonnes pratiques
Exchange 2013 Bonnes pratiques
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
ICT Journal - Dossier déduplication
ICT Journal - Dossier déduplicationICT Journal - Dossier déduplication
ICT Journal - Dossier déduplication
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Power edge r410-doc-fr
Power edge r410-doc-frPower edge r410-doc-fr
Power edge r410-doc-fr
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
 
Dell power edge r710 fr
Dell power edge r710 frDell power edge r710 fr
Dell power edge r710 fr
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
Haute disponibilité jss2012
Haute disponibilité jss2012Haute disponibilité jss2012
Haute disponibilité jss2012
 
Spécial Infrastructure réseau
Spécial Infrastructure réseauSpécial Infrastructure réseau
Spécial Infrastructure réseau
 
Dell power edge r210 ii spec-sheet-fr
Dell power edge r210 ii spec-sheet-frDell power edge r210 ii spec-sheet-fr
Dell power edge r210 ii spec-sheet-fr
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2
 
Réussir une montée en charge avec MongoDB
Réussir une montée en charge avec MongoDBRéussir une montée en charge avec MongoDB
Réussir une montée en charge avec MongoDB
 
cours-syst (1).pdf
cours-syst (1).pdfcours-syst (1).pdf
cours-syst (1).pdf
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash
 
OpenSource sur PowerLinux
OpenSource sur PowerLinuxOpenSource sur PowerLinux
OpenSource sur PowerLinux
 

Mais de Modern Data Stack France

Mais de Modern Data Stack France (20)

Stash - Data FinOPS
Stash - Data FinOPSStash - Data FinOPS
Stash - Data FinOPS
 
Vue d'ensemble Dremio
Vue d'ensemble DremioVue d'ensemble Dremio
Vue d'ensemble Dremio
 
From Data Warehouse to Lakehouse
From Data Warehouse to LakehouseFrom Data Warehouse to Lakehouse
From Data Warehouse to Lakehouse
 
Talend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark MeetupTalend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark Meetup
 
Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
 
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
 
Hadoop France meetup Feb2016 : recommendations with spark
Hadoop France meetup  Feb2016 : recommendations with sparkHadoop France meetup  Feb2016 : recommendations with spark
Hadoop France meetup Feb2016 : recommendations with spark
 
Hug janvier 2016 -EDF
Hug   janvier 2016 -EDFHug   janvier 2016 -EDF
Hug janvier 2016 -EDF
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlus
 
Hugfr SPARK & RIAK -20160114_hug_france
Hugfr  SPARK & RIAK -20160114_hug_franceHugfr  SPARK & RIAK -20160114_hug_france
Hugfr SPARK & RIAK -20160114_hug_france
 
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
 
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
 
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
 
Spark dataframe
Spark dataframeSpark dataframe
Spark dataframe
 
June Spark meetup : search as recommandation
June Spark meetup : search as recommandationJune Spark meetup : search as recommandation
June Spark meetup : search as recommandation
 
Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)
 
Spark meetup at viadeo
Spark meetup at viadeoSpark meetup at viadeo
Spark meetup at viadeo
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 

Quelles architectures matérielles pour Hadoop ?

  • 1. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Quellesarchitectures matériellespourhadoop? Francis Barbeau Architecte Solution Big Data
  • 2. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2 Ce que nous demande nos clients et prospects Les classes de problèmes Base de discussion : Retour d’expérience clients base installée France Les classes de problèmes que nous adressent nos prospects et clients • Exécuter des jobs Map/Reduce sur des fichiers log • Exécuter des requêtes interactives • Valider la qualité des données • Transformer/préparer des données • Recevoir des flux de messages • Exécuter des traitements mathématiques statistiques • Stocker des données à très long terme pour des besoins légaux • Utiliser des packages logiciels Open Source (Ex Open TSDB)
  • 3. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3 2 Grands Types de serveurs Architecture Hadoop : Les serveurs • Les nœuds de contrôle • 1 serveur Primary Name Node • 1 serveur Secondary Name Node / Resource Manager • 1 Serveur Edge Node • Les nœuds de traitement • n serveurs Worker Nodes / Data Nodes • Rôle du Edge Node © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9 Core Hadoop : HDFS Self-healing, high bandwidth 1 2 3 4 5 2 1 1 HDFS 1 3 3 4 4 5 2 3 2 5 5 4 HDFS breaks incoming files into blocks and stores themredundantlyacross the cluster.
  • 4. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4 Les nœuds de contrôle Architecture Hadoop : Les serveurs • Les nœuds de control – Name Nodes – Resource Mger – Dimensionnement de la mémoire – Type de processeur – Type de disques – Format des disques – Capacité des disques • Les nœuds de control – Edge Node – Dimensionnement de la mémoire – Type de processeur – Type de disques – Format des disques – Capacité des disques – Haute disponibilité Serveur 2U de hauteur 8 disques SFF
  • 5. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5 Les nœuds de traitement Architecture Hadoop : Les serveurs • Les nœuds de traitement – Worker/Data Nodes – La volumétrie utilisateur est déterminante – Le facteur de réplication dimensionne le cluster – La capacité des disques dimensionne le nombre de nœuds – La densité des serveurs a un impact direct sur l’emprise au sol • Leurs caractéristiques – Le type de workload détermine leurs caractéristiques – Type de disques SAS ou SATA ? – Format des disques – Capacité des disques – Type de processeur – Quantité de mémoire Serveur 2U de hauteur 12 disques LFF Châssis de 3 Serveurs 3 x 15 Disques LFF
  • 6. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6 Illustration de la densité des serveurs 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 SAS 300 GB 15K ProLiant DL360p Gen8 UID SID 3 4 1 2 5 6 7 8 SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K ProLiant DL360p Gen8 UID SID 3 4 1 2 5 6 7 8 SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K ProLiant DL360p Gen8 UID SID 3 4 1 2 5 6 7 8 SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB UID ProLiant DL380e Gen8 SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB SATAMDL 7.2K 2.0TB Console 49 525150 1000Base-X 5 6 15 1613 1411 129 107 81 2 3 4 21 22 31 3229 3027 2825 2623 2417 18 19 20 37 38 47 4845 4643 4441 4239 4033 34 35 36 H3C S5120 Series Power Green=1000Mbps,Yellow=10/100Mbps HP 5120 Switch Series Green=10Gbps, Yellow=1Gbps SFP+ Console 10/100/1000Base-T Speed: Green=1000Mbps, Yellow=10/100Mbps 21 43 65 87 109 1211 242322212019181716151413 Duplex: Green=Full Duplex, Yellow=Half Duplex Unit SYS Mode Green = Simplex Yellow = Duplex 25 26 Management ACTLINK HP 5820X Series Switch JG219A Green=10Gbps, Yellow=1Gbps SFP+ Console 10/100/1000Base-T Speed: Green=1000Mbps, Yellow=10/100Mbps 21 43 65 87 109 1211 242322212019181716151413 Duplex: Green=Full Duplex, Yellow=Half Duplex Unit SYS Mode Green = Simplex Yellow = Duplex 25 26 Management ACTLINK HP 5820X Series Switch JG219A 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 SAS 300 GB 15K ProLiant DL360p Gen8 UID SID 3 4 1 2 5 6 7 8 SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K ProLiant DL360p Gen8 UID SID 3 4 1 2 5 6 7 8 SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K ProLiant DL360p Gen8 UID SID 3 4 1 2 5 6 7 8 SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K Console 49 525150 1000Base-X 5 6 15 1613 1411 129 107 81 2 3 4 21 22 31 3229 3027 2825 2623 2417 18 19 20 37 38 47 4845 4643 4441 4239 4033 34 35 36 H3C S5120 Series Power Green=1000Mbps,Yellow=10/100Mbps HP 5120 Switch Series Green=10Gbps, Yellow=1Gbps SFP+ SYS Management Console ACTLINK Green=10Gbps, Yellow=1Gbps SFP+ 21 43 65 87 109 1211 242322212019181716151413 10/100/1000Base-T HP 5920 Series Switch JG296A Green=10Gbps, Yellow=1Gbps SFP+ SYS Management Console ACTLINK Green=10Gbps, Yellow=1Gbps SFP+ 21 43 65 87 109 1211 242322212019181716151413 10/100/1000Base-T HP 5920 Series Switch JG296A UID 10 134 71 11 145 82 12 156 93 UID 10 134 71 11 145 82 12 156 93 UID 10 134 71 11 145 82 12 156 93 UID UID UID ProLiant SL4540 Gen8 UID 10 134 71 11 145 82 12 156 93 UID 10 134 71 11 145 82 12 156 93 UID 10 134 71 11 145 82 12 156 93 UID UID UID ProLiant SL4540 Gen8 UID 10 134 71 11 145 82 12 156 93 UID 10 134 71 11 145 82 12 156 93 UID 10 134 71 11 145 82 12 156 93 UID UID UID ProLiant SL4540 Gen8 UID 10 134 71 11 145 82 12 156 93 UID 10 134 71 11 145 82 12 156 93 UID 10 134 71 11 145 82 12 156 93 UID UID UID ProLiant SL4540 Gen8 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 3.0 TB 6GB DP 7.2K SAS MDL 100To Utilisateur Version « Serveur Rack » 100To Utilisateur Version « Serveur Haute Densité » SAS 300 GB 15K SAS 300 GB 15K SAS 300 GB 15K • Version serveur 2U de hauteur – 18 serveurs par rack de base – 19 serveurs par rack additionnel • Version serveur haute densité – 7 châssis par rack soit 21 serveurs
  • 7. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.7 Data at Rest Chiffrement des données Le chiffrement des données peut se faire de 3 façons différentes : • Option 1: Chiffrement des données au niveau de l’OS • Option 2 : Logiciels partenaires de chiffrement des données • Option 3 : Chiffrement des données au niveau du matériel et des cartes contrôleurs disques Leading storage Secure Encryption
  • 8. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8 Architecture Hadoop : le réseau Timeline Les points d’attention Network hot spot ! Network hot spot !
  • 9. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9 Les principes d’architecture Hadoop les aspects topologies de réseau • Hadoop est sensible à la bande passante • Hadoop n’est pas sensible à la latence • L’utilisation de commutateur “Deep Buffer Caching” est un atout pour les performances • La redondance du réseau du cluster est un aspect à considérer • Topologie réseau « à plat » - Pas de nécessité de disposer de commutateurs d’agrégation • Utilisation de câbles DAC 10Gbit ou CATe-6 10Gbit Base T • Différenciation des réseaux • Mise en œuvre d’un commutateur out-of-bound-management dédié Network with IRF stack IRF Stack
  • 10. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10 Pour terminer Conclusion • Nous disposons d’architectures de référence pour les 3 distributions Cloudera, HortonWorks et MapR • Les White Papers sont disponibles sur le site web commercial HP Exemple de White Paper
  • 11. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Thankyou