Présentation Conférence "Bigdata Niort"
Hadoop, prêt pour l’entreprise
Après une introduction à Hadoop, son historique et son écosystème, il s’agira de découvrir de quelle manière cette technologie est prête pour l’entreprise.
Les utilisations d’Hadoop sont déjà très nombreuses et ce dans de nombreux secteurs ; cette technologie, qui pourrait effrayer, sait se fondre au système d’information des organisations de grâce à sa richesse, et aux types de traitements qui peuvent s’y exécuter. De même, la variété de solutions qui composent le monde Hadoop permet à chacun de démarrer à son rythme pour pouvoir progresser et tirer partie de toutes les données qui nous entourent, les transformant en information et enfin en connaissances.
http://www.bigdata-niort.fr/charly-clairmont/
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Hadoop prêt pour l'Entreprise
1. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Big Data Niort - 20 Mars 2014
Hadoop « Enterprise Ready »
Hadoop prêt pour l'entreprise
Charly CLAIRMONT
Altic
charly.clairmont@altic.org
@egwada
2. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Mon parcours
● Depuis 2004 - ALTIC ● Mes Technos
…
...
3. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop User Group France
● Créé en 2012
● Plus de 300 membres
● Plus de 100 membres
par meetup
● Vimeo (23 vidéos)
● http://vimeo.com/user11241340
● SlideShare (Présentations (29)
● http://fr.slideshare.net/hugfrance
● Twitter
● @hugFrance
●
#HugFr
● Site
● http://hugfrance.fr
Un groupe de plus en plus actif !
(messages échangés sur l'année)
4. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop une brève histoire, déjà 10 ans !
2011
Hortonworks
founded
2012 2013
Hadoop 1.0
Hadoop 2.0
HugFrance
5. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop une brève histoire, déjà 10 ans !
le détail
● 2004 - Doug Cutting and Mike Cafarella crée Hadoop selon le papier de Google
● 2005 Dec. - Nutch réécrit au dessus d'Hadoop - 20 nœuds
● 2006 Jan. - Doug Cutting rejoind Yahoo!
● 2006 Fev. - Hadoop top project Apache - HDFS & Map / Reduce
● 2006 Fev. - Yahoo! adopte Hadoop
● 2006 Avr. - Benchmark Tri sur 188 nœuds (10 GB/noeud) en 47.9 heures.
● 2006 Mai. - Yahoo! a un cluster de 300 nœuds
● 2006 Mai. - Benchmark Tri sur 500 nœuds en 42 heures (meilleures machines)
● 2006 Oct. - Hadoop s'exécute sur 600 nœuds
● 2006 Dec. - Benchmark Tri
● 20 nœuds : 1,8 heures
● 100 nœuds : 3,3 heures
● 500 nœuds : 5,2 heures
● 900 nœuds : 7,8 heures
● 2007 Jan. - Hadoop s'exécute sur 900 nœuds
● 2007 Apr. - Hadoop s'exécute sur 2 cluster de 1000 nœuds
● 2008 Oct. - 10 To de donnée par jour dans un cluster Hadoop
● 2009 Mar. - 17 clusters pour un total de 24 000 nœuds
● 2009 Avr. - 59 sec. pour trier 500 Go sur 1 400 nœuds et 100 To trié en 173 min. sur 3 400 nœuds
● ...
● ...
● 2012 Jan. 4 - Hadoop 1.0
● 2013 Mai. - 1,42 To/min sur 2 100 nœuds (YARN)
● 2013 Oct. 16 - Hadoop 2.0
6. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Et en 10 ans son adoption ne fait plus de doute !
7. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop est robuste !
● Stable
● Testé - Yahoo! (40 000 nœuds)
● Fiable
● Tolérant à la panne
● Flexible
● Schéma à la lecture !
● Passage à l'échelle
● Économique
● Prédictibilité des coûts
8. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, système d'exploitation de la donnée
9. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS, le système de fichiers distribué
● Distribué
● Passage à l'échelle
● Auto-surveillance
pour redistribuer la
donnée
● Peu gourmand en
bande passante
10. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, calcul parallèle en toute simplicité
Map Reduce
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Entées
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Key|Value
Intermédiaire
Key|Value,
Key|Value,
Key|Value,
Key|Value
Résultat
= un type de collection
Key|Value,
Key|Value,
Key|Value
Key|Value,
Key|Value
11. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, architecture basique
Input
Format
Map Sort Reduce Output
Format
Node Node
Partitioner
MapReduce
HDFS
(Distributed File System)
12. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS et MAP / REDUCE au cœur d'Hadoop
13. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS, range donc les fichiers
14. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS sait où se situe chacun des blocs de
données
15. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, colle parfaitement à cette
distribution de fichiers (1)
16. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, colle parfaitement à cette
distribution de fichiers (2)
17. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HBASE, du NoSQL sur Hadoop
● Distribuée
● Orientée colonnes
● Multidimensionnelle
● Haute Disponibilité
● Haute Performance
● Système de stockage
18. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hive, la couche SQL d'Hadoop
HDFS
DDL QueriesBrowsing
MapReduce
MetaStore
Thrift API
SerDe
Thrift Jute JSON..
Execution
Driver
Parser
Planner
DB
WebUI
Optimizer
JDBC ODBCCLI
19. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
PIG, pas de Map / Reduce plutôt du script !
20. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Importer / exporter
NFS
● Naviguer dans HDFS
depuis votre
explorateur de fichiers
Flume
● Collecte de grands
volume de données
(logs, événements...)
vers Hadoop
WebHDFS
● Service REST pour
HDSF
SQOOP
● Importer et exporter
vos données rangées
dans votre SGBDR
21. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Exploitation
Oozie
● Planification de jobs
Ambari
● Installation, gestion,
surveillance du cluster
Hadoop
Falcon
● Gestion cycle de vie
des données
● Réplication
22. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Sécurité
Knox
● Gestion étendue,
unifiée et globale de
la sécurité dans
Hadoop
● Supporte
l'authentification et la
gestion des jetons de
sécurité.
KNOX
23. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop 2 ! Plus de types de traitements !
24. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
YARN, transforme Hadoop en OS de la donnée
25. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Grâce à Yahoo! un standard est né
26. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, un vibrant écosystème
27. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Et c'est bien l'open source qui mène la danse...
28. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Tellement reconnu... qu'il grignote des
places... lentement mais sûrement...
Ralph KIMBALL, un des pères du
Data Warehousing reconnaît
vivement Hadoop comme
● Un excellent complément au
data Warehouse
● Une zone de staging et un ETL
de grande efficacité
29. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop pourra tout traiter
« Le transactionnel »
Déjà dans toutes les têtes
Surtout celle de
Doug CUTTING, le père
d'Hadoop !
30. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Pas de bidouillage ! De vrais outils !
Exploitation ETL
Exploration Visualisations
31. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Avec de vrais acteurs !
32. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Des solutions disruptives et structurantes
Couches logicielles Technologies
Traitements massivement
parallèles
YARN, GiRAPH, MapReduce, HBase, Phoenix,
Spark/BDAS, Drill, Impala, Stinger, PrestoDB,
STORM ...
Système de fichiers Azure, CassandraFS, CephFS, CleverSafe,
GlusterFS, GridGain, HDFS, Lustre
MapR FS, S3, SWIFT, Quantcast FS, Symantec
VCFS ...
Infrastructures System on a Chip, x86, Virtualization (Savanna,
Sorengetti ) and Cloud (Amazon EMR, Rackspace,
Enovance, ...)
Distributions Cloudera, Hortonworks, IBM, Intel, MapR, Pivotal,
WanDisco
33. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, lac de données
34. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Avec de vrais projets !
#HugFrance a eu de vrais retour d'expérience
● Paris
– Crédit Mutuel Arkea
● Consolidation données clients
– EDF
● Nouveau Compteur électrique « Linky »
– Criteo
● Annonces publicitaires en ligne
– 55
● Optimisation publicité en ligne
● Lyon
– Booking.com
● Réservation de nuitées d'hôtel
35. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop,
C'est avant tout du logiciel !
Il aide à délivrer la vraie valeur de toutes vos données
Lancez vous !
Hadoop,
C'est avant tout du logiciel !
Il aide à délivrer la vraie valeur de toutes vos données
Lancez vous !
36. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Big Data Niort - 20 Mars 2014
Hadoop « Enterprise Ready »
Merci pour votre attention
Charly CLAIRMONT
Altic
charly.clairmont@altic.org
@egwada