Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Retour Hadoop Summit San José 2014 - Altic
1. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HUG France – 11 Juin 2014
Retours du Hadoop
Summit 2014
San José
Charly CLAIRMONT
charly[.]clairmont[@]altic.org
@egwada
2. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, la révolution est toujours en marche !
Plus de 3 000 conférenciers
Plus d'exposants
Plus de sessions
3. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Ce qu'il fallait retenir ! ( selon moi ;-) )
● SQL on Hadoop !
● Plus de types traitements au dessus d'Hadoop
● Simplifier Hadoop !
4. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
SQL on Hadoop !
● Beaucoup d'acteurs traditionnels sont venus à
Hadoop !
● Et bien sûr ils font avec ce qu'ils savent faire : SQL
● De même beaucoup de couches SQL pour
Hadoop existent...
● Trop ??
5. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
SQL on Hadoop !
● Tout le monde cherche à approcher des temps
de réponse humainement acceptable
● « Discardable In-Memory Materialized Queries »
● Grâce Optiq de Julian Hyde
– Son but ultime :
– « faire tourner Mondrian (OLAP) au dessus d'Hadoop »
● Projet à suivre
6. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
SQL on Hadoop !
« Discardable In-Memory
Materialized Queries »
Pas que pour Hive !
Pig et les autres
composants en
bénéficieront
7. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Plus de types traitements au dessus d'Hadoop
8. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Plus de types traitements au dessus d'Hadoop
● Encrer l'approche
● Data Lake
● Data Hub
Ou plutôt
● Réservoir
– Plus approprié ?!
9. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Plus de types traitements au dessus d'Hadoop
Pour gérer, traiter tous types de formats de données
10. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Simplifier Hadoop !
● Rendre Hadoop plus « people ready » !
● Beaucoup d'initiatives en ce sens
– Ambari
– Falcon
– HCatalog / Templeton
– OpenStack Sahara
– Hadoop telle une plate-forme
– JetStream (continuuity, at&t)
– ...
● Tous les projets
– qui visent la performance
– qui augmentent la productivité
11. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Simplifier Hadoop !
Amabari
● simplifie la gestion du cluster
● devient la porte d'entrée des utilisateurs finaux
12. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Simplifier Hadoop !
Falcon
● Un point unique pour manipuler toutes les données sur tous
vos clusters
13. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Simplifier Hadoop !
HCatalog / Templeton : apporter la cohérence dans les données
14. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Simplifier Hadoop !
Hadoop, une plate-forme
Couches
logicielles
Technologies
Traitements
massivement
parallèles
YARN, GiRAPH, MapReduce,
HBase, Phoenix, Spark/BDAS,
Drill, Impala, Stinger, PrestoDB,
STORM ...
Système de
fichiers
Azure, CassandraFS, CephFS,
CleverSafe, GlusterFS, GridGain,
HDFS, Lustre
MapR FS, S3, SWIFT, Quantcast
FS, Symantec VCFS ...
Infrastructures System on a Chip, x86,
Virtualization (Savanna,
Sorengetti ) and Cloud (Amazon
EMR, Rackspace, Enovance, ...)
Distributions Cloudera, Hortonworks, IBM,
MapR, Pivotal, WanDisco
15. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Simplifier Hadoop !
Toutes les autres projets...
● Parquet
● Summingbird
● Hivemall
● Kite
● Spring XD
● Reef
● …
● YARN + Docker
● Mesos & co
16. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Simplifier Hadoop !
YARN plus accessible
17. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Conclusion
● Ne pas résumer Hadoop à SQL
● Approche trop réducteur qui efface tellement de
possibilités
● Hadoop gagne du terrain
● Commencer petit et viser grand
– POC > Production > Plate-forme
● YARN a tout changé
18. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Bonus (1)
● Des rencontres, sans doute des futurs talks au
HUG France
● Parquet
– Julien Le DEM (Twitter)
● Cascasding, Driven
● OpenStack Sahara
– Matthew Farrellee (Red Hat)
● Spark
– Nathan Paco (Stanford, Databriks)
19. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Bonus (2)
● Altic, LIPEN & Tugdual Sarazin
● Thèse : Biclustering en big data
– Cartographier vos données
– Implémentation Spark
● On recherche des jeux de données sympas pour
tester les algorithmes implémentés à grande
échelle.
– Si vous en avez, parlons en !
20. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HUG France - 11 Juin 2014
Retours Hadoop Summit 2014
Merci pour votre attention
Charly CLAIRMONT
Charly CLAIRMONT
@egwada