SlideShare uma empresa Scribd logo
1 de 23
Baixar para ler offline
ADMINISTRATION HADOOP ET 
RETOUR D’EXPÉRIENCE BI 
HUG FRANCE 
CHERIF TIFARANI 
06/10/2014
SOMMAIRE 
1 
1. CONNAISSEZ-VOUS SOLOCAL GROUP 
2. DIMENSIONNEMENT D’UN CLUSTER 
3. DÉPLOIEMENT ET MAINTENANCE 
4. SUPERVISION ET STRATÉGIE DE SAUVEGARDE /RESTAURATION 
5. RETOUR D’EXPÉRIENCE HADOOP 
1. Chargement de données/migration 
2. Intégration outils BI/datamining via le connecteur ODBC 
6. CONCLUSION
CONNAISSEZ-VOUS SOLOCAL GROUP 
2
CONNAISSEZ-VOUS SOLOCAL GROUP 
3
CONNAISSEZ-VOUS SOLOCAL GROUP 
4
DIMENSIONNEMENT D’UN CLUSTER 
5
DIMENSIONNEMENT D’UN CLUSTER 
6 
Type serveur Capacité de 
stockage 
Nombre de 
coeurs 
Capacité 
Mémoire 
Réseau 
Equilibré 8-10 x 1 TB 
2 x 6 Coeurs 4 GB / Coeur 2 x 10 GB 
Intensif I/O 12-15 x 1 TB 2 x 6 Coeurs 
4 GB / Coeur 
2 x 10 GB 
Intensif CPU 8-10 x 2 TB 
2 x 8 Coeurs 
4 GB / Coeur 
2 x 10 GB 
¾ Pourquoi les machines virtuelles sont déconseillées 
• Hadoop a besoin d’I/O performantes 
• Un cluster Hadoop a besoin de connaître sa topologie pour optimiser le placement des données 
¾ Certains composants Hadoop peuvent être utilisés dans des machines virtuelles 
• Les noeuds front end et masters qui n’ont pas de contrainte forte d’I/O 
• Cependant, il faut prévoir d’une bande passante et d’une mémoire suffisante
DIMENSIONNEMENT D’UN CLUSTER 
7 
¾Remplir 2 baies en parallèle 
¾Les deux baies dans le même 
data center. 
¾Répartir les services sur les baies 
• Un Serveur master NN dans 
chaque baie 
• Assurer au moins un service 
ZK et JN sur chaque baie 
¾Vlan dédié afin d’assurer une 
communication fluide entre les 
serveurs.
DÉPLOIEMENT ET MAINTENANCE 
8
DÉPLOIEMENT ET MAINTENANCE 
9 
¾Sécuriser les accès 
• Authentification forte via Kerberos, Habilitation 
par permissions Unix: propriétaire, groupe, … 
• Isolation des utilisateurs forte: portée par les 
permissions HDFS 
¾Sécuriser les données 
• Isolation des données dans un projet, un 
cluster contient l’ensemble des données. 
L’isolation repose sur les permissions HDFS 
• Isolation des données entre les projets. 
L’isolation est portée par la gestion des groupes 
Unix 
Knox : passerelle d’accès sécurisée et distribuée aux services d’un cluster hadoop 
Sentry : contrôle d’accès fin à hive, impala 
Falcon : gestion du cycle de vie des données stockées dans hadoop
DÉPLOIEMENT ET MAINTENANCE 
10 
¾Ne pas oublier de mettre en place et maintenir à jour: 
• Un miroir local : OS, distribution hadoop, outils connexes 
• Serveur support dédié kerberos 
¾Utiliser plusieurs baies et nommer les serveurs en fonction de cela 
¾Favoriser les outils du monde DevOps (chef, puppet) 
• Restreindre les accès directs aux machines. 
¾Penser HA par défaut 
• Répliquer le serveur front end 
¾ D’une manière générale, il est essentiel d’industrialiser la mise en production et de 
limiter au maximum la masse de code à maintenir en interne
SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION 
11
SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION 
12 
¾ Ganglia: 
• Collecte des métriques système et applicative dans une base RRD 
• Mise à disposition à l’exploitant 
• Agrégation des métriques de plusieurs clusters 
« Ganglia est le standard commun aux solutions sur hadoop pour la Remontée de 
métrique » 
¾ Nagios: 
• Alerting sur la base des métriques collectées par ganglia 
« Nagios peut être remplacé par votre outil d’alerting interne » 
La bonne pratique est de s’interfacer avec, pas de le remplacer
SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION 
13 
¾ Chaque composant d’hadoop fourni 
• Une interface basique en HTML (*.Http.Address dans les configurations) 
- Namenode : http://$hostname:50070/ 
- Resource manager: http://$hostname:8088/ 
• Une API REST 
¾ Des interfaces graphiques fournissant une vue agrégée existent 
• Cloudera manager : interface de gestion de cloudera 
¾HDFS fournit un mécanisme de snapshot en temps constant 
¾Distcp : permet de faire une copie distribuée d’un cluster A vers un Cluster B 
• À ordonnancer dans une crontab, controlM, … 
¾Sauvegarde des méta informations du namenode 
• fsimage et le WAL (fichier edits)
RETOUR D’EXPÉRIENCE HADOOP 
14
15 
RETOUR D’EXPÉRIENCE MIGRATION HADOOP 
CONTEXTE Points clés 
• La plateforme de stockage et d’analyse 
des données mobile Pages Jaunes connait 
une croissance forte et rapide en volumes 
de données. 
• Le coût du stockage de la solution 
existante basés sur Netezza n’est plus 
tenable à court terme 
• Hadoop a été identifié comme une solution 
de déchargement d’entrepôt permettant 
d’atteindre l’objectif de réduction des coûts 
et optimisation des performances 
d’analyses 
• Cadrage d’un projet de migration et 
d’une plateforme Hadoop 
• Réalisation technique et 
fonctionnelle d’interfaçage entre 
Hadoop et Netezza 
• Intégration de la plateforme Hadoop 
avec les outils décisionnels 
existants
INTÉGRER HADOOP DANS LE DATA CENTER 
16 
¾ Différentes sources de 
données et différents 
types de données 
¾ Une plateforme 
distribuée 
¾ Différents types d’accès
CHARGEMENT DE DONNÉES/MIGRATION 
17 
¾ 183 tables 
¾ 18 mois d’historiques 
¾ 22 TO de données brutes collectées 
¾ 66 TO de données répliquées 
¾ 80 TO de capacité de stockage brut 
(réplication incluse) 
¾ Transfèrt des données avec Sqoop 
(en utilisant Cloudera Connector for Netezza et 
sqoop1) 
¾ Compression des tables en mode parquet avec 
Impala
INTÉGRATION OUTILS BI/DATAMINING 
18 
¾ Impala :Un moteur de requêtage SQL en temps réel sur hadoop (MPP) 
• Utilisant la même base de données de métadonnées que hive 
• Bypass MapReduce(lecture directe des données) 
• Prise en charge des formats de fichiers HDFS (text files, sequence files compressé, avro data files, treveni) 
• Optimisé pour les requêtes d'entrepôt de données (en particulier, parquet) 
¾ Hive vs Impala TextFile vs Parquet 
TextFile 
Parquet 
Low-latency queries for a BI user experience
INTÉGRATION OUTILS BI/DATAMINING 
19
INTÉGRATION OUTILS BI/DATAMINING VIA LE CONNECTEUR ODBC 
20 
¾ Limites Impala: 
• Aucune tolérance de pannes, 
9 Si un noeud tombe en panne , toutes les requêtes qui s’exécutent sur ce noeud tombent en panne 
• Impala ne prend pas en charge certaines opérations HiveQL 
9 DESCRIBE DATABASE/COLUMN 
9 SHOW PARTITION/COLUMNS/INDEXES) 
9 Beaucoup d'entre elles sont envisagées pour les futures versions 
• Impala ne couvre pas les processus de traitement de type ETL qui sont offerts par Hive 
• Ne gère pas les type de données complexes (Array, MAP, STRUCT) 
• Très consommateur en mémoire (prévoir 128go),
CONCLUSION 
¾Ne pas confondre Hadoop avec un outil de BI temps réel 
• A besoin d’être complété surtout sur le plan DataViz 
¾ Big Data ne veut pas dire Open data 
• Penser aux enjeux sécurité en amont 
• Confidentialité 
¾Faire monter en compétences les équipes sur le volet infra et applicatif 
• Une formation est nécessaire mais pas suffisante 
• Donner un maximum de pouvoir aux utilisateurs 
¾Ne pas négliger les coûts cachés 
• Le coût de migration d’un existant (Netezza vers Hadoop) 
¾Adopter une approche DEVOPS et utiliser des outils comme PUPPET, CHEF, 
¾Être en capacité d’absorber les nouvelles versions et technologies 
21
22 
QUESTIONS ?

Mais conteúdo relacionado

Mais procurados

Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introductionfredcons
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...OCTO Technology
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyOlivier DASINI
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big DataAmal Abid
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsJoseph Glorieux
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 

Mais procurados (20)

Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Un introduction à Pig
Un introduction à PigUn introduction à Pig
Un introduction à Pig
 
Une introduction à HBase
Une introduction à HBaseUne introduction à HBase
Une introduction à HBase
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
 
Hadoop
HadoopHadoop
Hadoop
 
Hadopp Vue d'ensemble
Hadopp Vue d'ensembleHadopp Vue d'ensemble
Hadopp Vue d'ensemble
 
Hadoop chez Kobojo
Hadoop chez KobojoHadoop chez Kobojo
Hadoop chez Kobojo
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien Hardy
 
Hortonwork
HortonworkHortonwork
Hortonwork
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Hadoop
HadoopHadoop
Hadoop
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
HCatalog
HCatalogHCatalog
HCatalog
 

Destaque

June Spark meetup : search as recommandation
June Spark meetup : search as recommandationJune Spark meetup : search as recommandation
June Spark meetup : search as recommandationModern Data Stack France
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielModern Data Stack France
 
Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)Modern Data Stack France
 
Big Data for Product Managers
Big Data for Product ManagersBig Data for Product Managers
Big Data for Product ManagersPentaho
 
HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...
HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...
HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...Modern Data Stack France
 
Monitoring des Logs
Monitoring des LogsMonitoring des Logs
Monitoring des LogsSooyoos
 
Symfony Live Paris 2016 - Ce que nous avons retenu
Symfony Live Paris 2016 - Ce que nous avons retenuSymfony Live Paris 2016 - Ce que nous avons retenu
Symfony Live Paris 2016 - Ce que nous avons retenuSooyoos
 
Kafka Connect by Datio
Kafka Connect by DatioKafka Connect by Datio
Kafka Connect by DatioDatio Big Data
 
DC/OS: The definitive platform for modern apps
DC/OS: The definitive platform for modern appsDC/OS: The definitive platform for modern apps
DC/OS: The definitive platform for modern appsDatio Big Data
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Modern Data Stack France
 
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Cedric CARBONE
 
Cassandra spark connector
Cassandra spark connectorCassandra spark connector
Cassandra spark connectorDuyhai Doan
 
Introduction to Apache Kafka- Part 2
Introduction to Apache Kafka- Part 2Introduction to Apache Kafka- Part 2
Introduction to Apache Kafka- Part 2Knoldus Inc.
 
BEM : Block Element Modifier
BEM : Block Element ModifierBEM : Block Element Modifier
BEM : Block Element ModifierSooyoos
 
Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Ch...
Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Ch...Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Ch...
Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Ch...confluent
 
Data Pipelines with Kafka Connect
Data Pipelines with Kafka ConnectData Pipelines with Kafka Connect
Data Pipelines with Kafka ConnectKaufman Ng
 
Introduction to Kafka connect
Introduction to Kafka connectIntroduction to Kafka connect
Introduction to Kafka connectKnoldus Inc.
 
Introduction to Apache Kafka- Part 1
Introduction to Apache Kafka- Part 1Introduction to Apache Kafka- Part 1
Introduction to Apache Kafka- Part 1Knoldus Inc.
 
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5Cloudera, Inc.
 

Destaque (20)

June Spark meetup : search as recommandation
June Spark meetup : search as recommandationJune Spark meetup : search as recommandation
June Spark meetup : search as recommandation
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 
Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)
 
Spark dataframe
Spark dataframeSpark dataframe
Spark dataframe
 
Big Data for Product Managers
Big Data for Product ManagersBig Data for Product Managers
Big Data for Product Managers
 
HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...
HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...
HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...
 
Monitoring des Logs
Monitoring des LogsMonitoring des Logs
Monitoring des Logs
 
Symfony Live Paris 2016 - Ce que nous avons retenu
Symfony Live Paris 2016 - Ce que nous avons retenuSymfony Live Paris 2016 - Ce que nous avons retenu
Symfony Live Paris 2016 - Ce que nous avons retenu
 
Kafka Connect by Datio
Kafka Connect by DatioKafka Connect by Datio
Kafka Connect by Datio
 
DC/OS: The definitive platform for modern apps
DC/OS: The definitive platform for modern appsDC/OS: The definitive platform for modern apps
DC/OS: The definitive platform for modern apps
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
 
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
Paris Spark Meetup (Feb2015) ccarbone : SPARK Streaming vs Storm / MLLib / Ne...
 
Cassandra spark connector
Cassandra spark connectorCassandra spark connector
Cassandra spark connector
 
Introduction to Apache Kafka- Part 2
Introduction to Apache Kafka- Part 2Introduction to Apache Kafka- Part 2
Introduction to Apache Kafka- Part 2
 
BEM : Block Element Modifier
BEM : Block Element ModifierBEM : Block Element Modifier
BEM : Block Element Modifier
 
Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Ch...
Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Ch...Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Ch...
Kafka Connect: Real-time Data Integration at Scale with Apache Kafka, Ewen Ch...
 
Data Pipelines with Kafka Connect
Data Pipelines with Kafka ConnectData Pipelines with Kafka Connect
Data Pipelines with Kafka Connect
 
Introduction to Kafka connect
Introduction to Kafka connectIntroduction to Kafka connect
Introduction to Kafka connect
 
Introduction to Apache Kafka- Part 1
Introduction to Apache Kafka- Part 1Introduction to Apache Kafka- Part 1
Introduction to Apache Kafka- Part 1
 
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
 

Semelhante a Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).

Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 
Alphorm.com Formation Microsoft Hyperconvergence
Alphorm.com Formation Microsoft HyperconvergenceAlphorm.com Formation Microsoft Hyperconvergence
Alphorm.com Formation Microsoft HyperconvergenceAlphorm
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudVictor Coustenoble
 
Meetup Google Cloud
Meetup Google CloudMeetup Google Cloud
Meetup Google CloudPierre Coste
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Microsoft Décideurs IT
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
GAB 2015 - Nouveautes sur le stockage de donnees dans Azure
GAB 2015  - Nouveautes sur le stockage de donnees dans AzureGAB 2015  - Nouveautes sur le stockage de donnees dans Azure
GAB 2015 - Nouveautes sur le stockage de donnees dans AzureJean-Luc Boucho
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...Nicolas Desachy
 
Webséminaire DBaaS (Novembre 2014)
Webséminaire DBaaS (Novembre 2014)Webséminaire DBaaS (Novembre 2014)
Webséminaire DBaaS (Novembre 2014)Jean-Philippe PINTE
 
[Café techno] Spectrum Project - Affronter et gérer la masse de données hétér...
[Café techno] Spectrum Project - Affronter et gérer la masse de données hétér...[Café techno] Spectrum Project - Affronter et gérer la masse de données hétér...
[Café techno] Spectrum Project - Affronter et gérer la masse de données hétér...Groupe D.FI
 

Semelhante a Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes). (20)

Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Alphorm.com Formation Microsoft Hyperconvergence
Alphorm.com Formation Microsoft HyperconvergenceAlphorm.com Formation Microsoft Hyperconvergence
Alphorm.com Formation Microsoft Hyperconvergence
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le Cloud
 
Meetup Google Cloud
Meetup Google CloudMeetup Google Cloud
Meetup Google Cloud
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
GAB 2015 - Nouveautes sur le stockage de donnees dans Azure
GAB 2015  - Nouveautes sur le stockage de donnees dans AzureGAB 2015  - Nouveautes sur le stockage de donnees dans Azure
GAB 2015 - Nouveautes sur le stockage de donnees dans Azure
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Cahier des charges
Cahier des charges Cahier des charges
Cahier des charges
 
Propostion un Iaas
Propostion un IaasPropostion un Iaas
Propostion un Iaas
 
REX Ansible
REX AnsibleREX Ansible
REX Ansible
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
Infrastructure as code drupal
Infrastructure as code drupalInfrastructure as code drupal
Infrastructure as code drupal
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
 
chap4.pdf
chap4.pdfchap4.pdf
chap4.pdf
 
Webséminaire DBaaS (Novembre 2014)
Webséminaire DBaaS (Novembre 2014)Webséminaire DBaaS (Novembre 2014)
Webséminaire DBaaS (Novembre 2014)
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 
[Café techno] Spectrum Project - Affronter et gérer la masse de données hétér...
[Café techno] Spectrum Project - Affronter et gérer la masse de données hétér...[Café techno] Spectrum Project - Affronter et gérer la masse de données hétér...
[Café techno] Spectrum Project - Affronter et gérer la masse de données hétér...
 

Mais de Modern Data Stack France

Talend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark MeetupTalend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark MeetupModern Data Stack France
 
Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017Modern Data Stack France
 
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...Modern Data Stack France
 
Hadoop France meetup Feb2016 : recommendations with spark
Hadoop France meetup  Feb2016 : recommendations with sparkHadoop France meetup  Feb2016 : recommendations with spark
Hadoop France meetup Feb2016 : recommendations with sparkModern Data Stack France
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlusModern Data Stack France
 
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)Modern Data Stack France
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Modern Data Stack France
 
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Modern Data Stack France
 
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015Modern Data Stack France
 
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXHadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXModern Data Stack France
 
The Cascading (big) data application framework
The Cascading (big) data application frameworkThe Cascading (big) data application framework
The Cascading (big) data application frameworkModern Data Stack France
 
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Modern Data Stack France
 
Quelles architectures matérielles pour Hadoop ?
Quelles architectures matérielles pour Hadoop ?Quelles architectures matérielles pour Hadoop ?
Quelles architectures matérielles pour Hadoop ?Modern Data Stack France
 

Mais de Modern Data Stack France (20)

Stash - Data FinOPS
Stash - Data FinOPSStash - Data FinOPS
Stash - Data FinOPS
 
Vue d'ensemble Dremio
Vue d'ensemble DremioVue d'ensemble Dremio
Vue d'ensemble Dremio
 
From Data Warehouse to Lakehouse
From Data Warehouse to LakehouseFrom Data Warehouse to Lakehouse
From Data Warehouse to Lakehouse
 
Talend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark MeetupTalend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark Meetup
 
Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017
 
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
 
Hadoop France meetup Feb2016 : recommendations with spark
Hadoop France meetup  Feb2016 : recommendations with sparkHadoop France meetup  Feb2016 : recommendations with spark
Hadoop France meetup Feb2016 : recommendations with spark
 
Hug janvier 2016 -EDF
Hug   janvier 2016 -EDFHug   janvier 2016 -EDF
Hug janvier 2016 -EDF
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlus
 
Hugfr SPARK & RIAK -20160114_hug_france
Hugfr  SPARK & RIAK -20160114_hug_franceHugfr  SPARK & RIAK -20160114_hug_france
Hugfr SPARK & RIAK -20160114_hug_france
 
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
 
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
 
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
 
Spark meetup at viadeo
Spark meetup at viadeoSpark meetup at viadeo
Spark meetup at viadeo
 
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXHadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
 
The Cascading (big) data application framework
The Cascading (big) data application frameworkThe Cascading (big) data application framework
The Cascading (big) data application framework
 
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
 
Future of data
Future of dataFuture of data
Future of data
 
Quelles architectures matérielles pour Hadoop ?
Quelles architectures matérielles pour Hadoop ?Quelles architectures matérielles pour Hadoop ?
Quelles architectures matérielles pour Hadoop ?
 

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).

  • 1. ADMINISTRATION HADOOP ET RETOUR D’EXPÉRIENCE BI HUG FRANCE CHERIF TIFARANI 06/10/2014
  • 2. SOMMAIRE 1 1. CONNAISSEZ-VOUS SOLOCAL GROUP 2. DIMENSIONNEMENT D’UN CLUSTER 3. DÉPLOIEMENT ET MAINTENANCE 4. SUPERVISION ET STRATÉGIE DE SAUVEGARDE /RESTAURATION 5. RETOUR D’EXPÉRIENCE HADOOP 1. Chargement de données/migration 2. Intégration outils BI/datamining via le connecteur ODBC 6. CONCLUSION
  • 7. DIMENSIONNEMENT D’UN CLUSTER 6 Type serveur Capacité de stockage Nombre de coeurs Capacité Mémoire Réseau Equilibré 8-10 x 1 TB 2 x 6 Coeurs 4 GB / Coeur 2 x 10 GB Intensif I/O 12-15 x 1 TB 2 x 6 Coeurs 4 GB / Coeur 2 x 10 GB Intensif CPU 8-10 x 2 TB 2 x 8 Coeurs 4 GB / Coeur 2 x 10 GB ¾ Pourquoi les machines virtuelles sont déconseillées • Hadoop a besoin d’I/O performantes • Un cluster Hadoop a besoin de connaître sa topologie pour optimiser le placement des données ¾ Certains composants Hadoop peuvent être utilisés dans des machines virtuelles • Les noeuds front end et masters qui n’ont pas de contrainte forte d’I/O • Cependant, il faut prévoir d’une bande passante et d’une mémoire suffisante
  • 8. DIMENSIONNEMENT D’UN CLUSTER 7 ¾Remplir 2 baies en parallèle ¾Les deux baies dans le même data center. ¾Répartir les services sur les baies • Un Serveur master NN dans chaque baie • Assurer au moins un service ZK et JN sur chaque baie ¾Vlan dédié afin d’assurer une communication fluide entre les serveurs.
  • 10. DÉPLOIEMENT ET MAINTENANCE 9 ¾Sécuriser les accès • Authentification forte via Kerberos, Habilitation par permissions Unix: propriétaire, groupe, … • Isolation des utilisateurs forte: portée par les permissions HDFS ¾Sécuriser les données • Isolation des données dans un projet, un cluster contient l’ensemble des données. L’isolation repose sur les permissions HDFS • Isolation des données entre les projets. L’isolation est portée par la gestion des groupes Unix Knox : passerelle d’accès sécurisée et distribuée aux services d’un cluster hadoop Sentry : contrôle d’accès fin à hive, impala Falcon : gestion du cycle de vie des données stockées dans hadoop
  • 11. DÉPLOIEMENT ET MAINTENANCE 10 ¾Ne pas oublier de mettre en place et maintenir à jour: • Un miroir local : OS, distribution hadoop, outils connexes • Serveur support dédié kerberos ¾Utiliser plusieurs baies et nommer les serveurs en fonction de cela ¾Favoriser les outils du monde DevOps (chef, puppet) • Restreindre les accès directs aux machines. ¾Penser HA par défaut • Répliquer le serveur front end ¾ D’une manière générale, il est essentiel d’industrialiser la mise en production et de limiter au maximum la masse de code à maintenir en interne
  • 12. SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION 11
  • 13. SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION 12 ¾ Ganglia: • Collecte des métriques système et applicative dans une base RRD • Mise à disposition à l’exploitant • Agrégation des métriques de plusieurs clusters « Ganglia est le standard commun aux solutions sur hadoop pour la Remontée de métrique » ¾ Nagios: • Alerting sur la base des métriques collectées par ganglia « Nagios peut être remplacé par votre outil d’alerting interne » La bonne pratique est de s’interfacer avec, pas de le remplacer
  • 14. SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION 13 ¾ Chaque composant d’hadoop fourni • Une interface basique en HTML (*.Http.Address dans les configurations) - Namenode : http://$hostname:50070/ - Resource manager: http://$hostname:8088/ • Une API REST ¾ Des interfaces graphiques fournissant une vue agrégée existent • Cloudera manager : interface de gestion de cloudera ¾HDFS fournit un mécanisme de snapshot en temps constant ¾Distcp : permet de faire une copie distribuée d’un cluster A vers un Cluster B • À ordonnancer dans une crontab, controlM, … ¾Sauvegarde des méta informations du namenode • fsimage et le WAL (fichier edits)
  • 16. 15 RETOUR D’EXPÉRIENCE MIGRATION HADOOP CONTEXTE Points clés • La plateforme de stockage et d’analyse des données mobile Pages Jaunes connait une croissance forte et rapide en volumes de données. • Le coût du stockage de la solution existante basés sur Netezza n’est plus tenable à court terme • Hadoop a été identifié comme une solution de déchargement d’entrepôt permettant d’atteindre l’objectif de réduction des coûts et optimisation des performances d’analyses • Cadrage d’un projet de migration et d’une plateforme Hadoop • Réalisation technique et fonctionnelle d’interfaçage entre Hadoop et Netezza • Intégration de la plateforme Hadoop avec les outils décisionnels existants
  • 17. INTÉGRER HADOOP DANS LE DATA CENTER 16 ¾ Différentes sources de données et différents types de données ¾ Une plateforme distribuée ¾ Différents types d’accès
  • 18. CHARGEMENT DE DONNÉES/MIGRATION 17 ¾ 183 tables ¾ 18 mois d’historiques ¾ 22 TO de données brutes collectées ¾ 66 TO de données répliquées ¾ 80 TO de capacité de stockage brut (réplication incluse) ¾ Transfèrt des données avec Sqoop (en utilisant Cloudera Connector for Netezza et sqoop1) ¾ Compression des tables en mode parquet avec Impala
  • 19. INTÉGRATION OUTILS BI/DATAMINING 18 ¾ Impala :Un moteur de requêtage SQL en temps réel sur hadoop (MPP) • Utilisant la même base de données de métadonnées que hive • Bypass MapReduce(lecture directe des données) • Prise en charge des formats de fichiers HDFS (text files, sequence files compressé, avro data files, treveni) • Optimisé pour les requêtes d'entrepôt de données (en particulier, parquet) ¾ Hive vs Impala TextFile vs Parquet TextFile Parquet Low-latency queries for a BI user experience
  • 21. INTÉGRATION OUTILS BI/DATAMINING VIA LE CONNECTEUR ODBC 20 ¾ Limites Impala: • Aucune tolérance de pannes, 9 Si un noeud tombe en panne , toutes les requêtes qui s’exécutent sur ce noeud tombent en panne • Impala ne prend pas en charge certaines opérations HiveQL 9 DESCRIBE DATABASE/COLUMN 9 SHOW PARTITION/COLUMNS/INDEXES) 9 Beaucoup d'entre elles sont envisagées pour les futures versions • Impala ne couvre pas les processus de traitement de type ETL qui sont offerts par Hive • Ne gère pas les type de données complexes (Array, MAP, STRUCT) • Très consommateur en mémoire (prévoir 128go),
  • 22. CONCLUSION ¾Ne pas confondre Hadoop avec un outil de BI temps réel • A besoin d’être complété surtout sur le plan DataViz ¾ Big Data ne veut pas dire Open data • Penser aux enjeux sécurité en amont • Confidentialité ¾Faire monter en compétences les équipes sur le volet infra et applicatif • Une formation est nécessaire mais pas suffisante • Donner un maximum de pouvoir aux utilisateurs ¾Ne pas négliger les coûts cachés • Le coût de migration d’un existant (Netezza vers Hadoop) ¾Adopter une approche DEVOPS et utiliser des outils comme PUPPET, CHEF, ¾Être en capacité d’absorber les nouvelles versions et technologies 21