Un des initiative les plus intéressante du moment c'est Hadoop à la demande. Sahara, en incubation parmi les projets OpenStack facilite la mise en place de votre infrastructure moderne pour rester agile même dans une infrastructure qui réclame un nombre de machine toujours plus important...
présentation Solutions Linux 2014
2. ma petite bio
Depuis 10 ans Altic
Une évolution permanente avec les
technologies suivantes :
Un des animateurs de l'écosystème Hadoop
en France
Un groupe de plus en plus actif !
(messages échangés sur l'année)
7. Hadoop, en quelques
mots
● Fondé par Doug Cutting
● Initialement développé chez Yahoo
● Open source
● Initialement stockage et traitements
distribués de données
● « Data OS »
– Aujourd'hui Plateforme standard pour la
gestion de données
8. Hadoop, est robuste
● Stable
– Testé - Yahoo!(40 000 noeuds)
● Fiable
– Tolérant à la panne
● Flexible
– Schéma à la lecture !
– Passage à l'échelle
● Économique
– Prédictibilité des coûts
11. Openstack
système d'exploitation pour le cloud
– CPU / RAM
– Disque
– Réseau
Standard du IAAS
Simple
– Tableau de bord d'administration
– Provisionnement par les utilisteurs finaux
API très riche
15. Hadoop as services,
cas d'utilisation :
Administrateur système
● Faciliter les soucis d'installation, de
gestion, de monitoring des clusters
● Avoir un point central pour administrer
l'infrastructure toute entière de
l'entreprise
● Supporter différentes versions d'Hadoo
16. Hadoop as services,
cas d'utilisation :
Développeur, QA
● Créer différents environnements Hadoop
simplement :
– dev, test, pré-prod
● Avoir une API pour construire et lancer
son cluster à la volée, notamment lors
des tests
● Avoir la possibilité d'exploiter les
mêmes données par plusieurs clusters
17. Hadoop as services,
cas d'utilisation :
Analystes
● Isolation des environnements pour éviter
la surcharge de la production
– Bac à sable
20. Architecture
● Auth component – responsable pour l'authentification et les autorisations ,
dialogue avec Keystone
● Accès aux données (DAL) - référencé en base
● Provisioning Engine - composant responsable de la communication avec Nova,
Heat, Cinder and Glance
● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de
provisionner les VM
● Elastic Data Processing (EDP) - responsable de la planification et de la
gestion des jobs Hadoop sur les clusters provisionnés par Sahara
● REST API - expose les fonctionnalités de Sahara grâce à des services web
REST
● Client Python pour Sahara - similaire aux autres composants Openstack qui
ont leur propre client python
● Sahara pages - GUI pour Sahara intégré à Horizon
21. Sahara plugin
● Très important dans l'architecture
● Permet aux distributions Hadoop de se
fondre (pluger) au sein de Sahara
● Intégrations actuelles :
– Vanilla (impl. de référence avec Apache
Hadoop),
– HDP (via Ambari),
– IDH (via Intel Manager) ???
– et en test CDH et Spark
22. Elastic Data Processing
(EDP)
● permet l'exécution de jobs sur le cluster
● Hive, Pig, MapReduce, et des jobs Java
● Les jobs enregistrés sous forme de binaire dans
Swift ou en base de données
● configuration des jobs lors de leur soumission
● exécution des job sur les clusters existants ou
temporaires
25. Feuille de route
● Intégration de la première version stable au sein de
Icehouse
● Meilleure intégration avec l'écosystème d'Openstack
– Heat
– Tempest
– Devstack
– Ceilometer
– Ironic
● Amélioration d'EDP
● Finition de l'api v2
● Tests de performances