Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

•Transferir como PPTX, PDF•

7 gostaram•12,648 visualizações

Meetup @Viadeo • 19h45-20h : Extension de Spark (Tachyon / Spark JobServer). Jonathan Lamiel - Talend Labs -La mémoire partagée de Spark avec Tachyon -Rendre Spark Interactif avec Spark JobServer

Internet

1
©2015 Talend Inc.©2015 Talend Inc.
Spark Meetup
Jonathan Lamiel
Talend Labs

2
Présentation de Spark Packages & Co
 Comment partager de la données entre différents job Spark ?
 Comment s’interfacer avec Spark ?
 Comment rendre une application Spark interactive ?

4
Comment partager de la données entre
différents job Spark ?
 Cas d’usage : Plusieurs contextes Spark utilisant un même
fichier d’enrichissement.
 Solution 1 : Lire et relire et rerelire le même fichier à chaque
fois.
 Solution 2 : Utiliser Tachyon

5
 Open Source
 Système de fichier distribué In-memory

6
 Utilisation avec Spark mais pas seulement

10
 Tachyon accède aux données de manière intelligente ?

14
 Spark
 Des RDDs :
 HadoopRDD, PairRDD, AvroRDD, JsonRDD, JdbcRDD,
ESSpark, CassandraRDD etc …
 Pour le reste : Hadoop InputFormats
Comment s’interfacer avec Spark ?

15
 Spark Streaming
 Des Dstreams:
 File systems, Socket, Akka actors, Kafka, Flume,
Kinesis, Twitter
 Pour le reste : Custom Receiver ou Camel ???
Comment s’interfacer avec Spark ?

18
Comment rendre une application Spark
interactive ?
 Cas d’usage : Créer une API Rest pour exécuter du Spark et
aider au management des contextes Spark.
 Solution 1 : Le faire à la main à base d’Akka + Spray etc …
 Solution 2 : Utiliser ce qu’il y’a de disponible dans les Spark-
Packages

19
Spark-jobserver
 Open Source
 Gestion des contextes Spark par le JobServer
 Gestion des « applications » sous forme de jar
 Appel d’applications Synchrone ou Asynchrone
 Statuts des jobs exécutés
 Gestion de la validation des paramètres avant soumission a
Spark

20
Spark-jobserver
 Ca ressemble à quoi ?

21
Spark-jobserver
 A quoi ressemble mon code Spark ?

22
Spark-jobserver
 Comment je l’utilise ?

23
Spark-jobserver
 D’un point de vue architecture ?

24
 Suivre l’évolution des projets sortant.
What next ?
….

Mais conteúdo relacionado

Mais procurados

spark_intro_1208Mehdi Erraki

Chapitre 3 sparkMouna Torjmen

Oxalide Workshop #3 - Elasticearch, an overviewLudovic Piot

Architecture Big Data open source S.M.A.C.KJulien Anguenot

Spark - Alexis Seigneurin (Français)Alexis Seigneurin

Cartographie du big dataacogoluegnes

Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin

Spark dataframeModern Data Stack France

Tunis big data_meetup__21_nov2015__aymenzaafouriAymen ZAAFOURI

Spark StreamingPALO IT

Analytics et Big Data, une histoire de cubes...Mathias Kluba

ElasticSearch : Architecture et DéveloppementMohamed hedi Abidi

Base de données graphe, Noe4j concepts et mise en oeuvreMICHRAFY MUSTAFA

HUG France - 20160114 industrialisation_process_big_data CanalPlusModern Data Stack France

Tirer le meilleur de ses données avec ElasticSearchSéven Le Mesle

A la recherche d'ElasticSearchNinnir

Algorithme distribués pour big data saison 2 @DevoxxFR 2016Duyhai Doan

DataStax et Cassandra dans Azure au Microsoft TechdaysVictor Coustenoble

Elasticsearch - Devoxx France 2012David Pilato

Deep Learning on Apache Spark: TensorFrames & Deep Learning Pipelines Databricks

Mais procurados (20)

spark_intro_1208

Chapitre 3 spark

Oxalide Workshop #3 - Elasticearch, an overview

Architecture Big Data open source S.M.A.C.K

Spark - Alexis Seigneurin (Français)

Cartographie du big data

Spark, ou comment traiter des données à la vitesse de l'éclair

Spark dataframe

Tunis big data_meetup__21_nov2015__aymenzaafouri

Spark Streaming

Analytics et Big Data, une histoire de cubes...

ElasticSearch : Architecture et Développement

Base de données graphe, Noe4j concepts et mise en oeuvre

HUG France - 20160114 industrialisation_process_big_data CanalPlus

Tirer le meilleur de ses données avec ElasticSearch

A la recherche d'ElasticSearch

Algorithme distribués pour big data saison 2 @DevoxxFR 2016

DataStax et Cassandra dans Azure au Microsoft Techdays

Elasticsearch - Devoxx France 2012

Deep Learning on Apache Spark: TensorFrames & Deep Learning Pipelines

Semelhante a Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

BigData_TP3 : SparkLilia Sfaxi

SparkInes Slimene

Spark - An In-Memory Distributed Computing Engine.pptxAnass Nabil

160813-technology-template-16x9.pptxmajdoulineaitabdelal

Spark Summit Europe Wrap Up and TASM State of the CommunityJean-Georges Perrin

Cours Big Data Chap4 - SparkAmal Abid

Présentation_Spark.pptxboulonvert

Spark RDD : Transformations & ActionsMICHRAFY MUSTAFA

[Smile] atelier spark - salon big data 13032018Smile I.T is open

Les technologies big data avec speech commentariesRima Jamli Faidi

[orleans-tech-19] Unifiez vos traitements Batch et Streaming avec Apache beamAlexandre Touret

Comprendre et maîtriser la performance de ses applications SparkRaphael Luta

[tours-jug19] Unifiez vos traitements Batch et Streaming avec Apache beamAlexandre Touret

Realtime Web avec Kafka, Spark et Mesosebiznext

Big sql4meetupJacques Milman

Alphorm.com Formation Splunk : Maitriser les fondamentauxAlphorm

Apache kafka big data trackParis Open Source Summit

Apache Kafka, Un système distribué de messagerie hautement performantALTIC Altic

Distributed computing with Spark 2.xDr Hajji Hicham

Hr analytics & big data : Spark en action dans un contexte RHWassim TRIFI

Semelhante a Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel (20)

BigData_TP3 : Spark

Spark

Spark - An In-Memory Distributed Computing Engine.pptx

160813-technology-template-16x9.pptx

Spark Summit Europe Wrap Up and TASM State of the Community

Cours Big Data Chap4 - Spark

Présentation_Spark.pptx

Spark RDD : Transformations & Actions

[Smile] atelier spark - salon big data 13032018

Les technologies big data avec speech commentaries

[orleans-tech-19] Unifiez vos traitements Batch et Streaming avec Apache beam

Comprendre et maîtriser la performance de ses applications Spark

[tours-jug19] Unifiez vos traitements Batch et Streaming avec Apache beam

Realtime Web avec Kafka, Spark et Mesos

Big sql4meetup

Alphorm.com Formation Splunk : Maitriser les fondamentaux

Apache kafka big data track

Apache Kafka, Un système distribué de messagerie hautement performant

Distributed computing with Spark 2.x

Hr analytics & big data : Spark en action dans un contexte RH

Mais de Modern Data Stack France

Stash - Data FinOPSModern Data Stack France

Vue d'ensemble DremioModern Data Stack France

From Data Warehouse to LakehouseModern Data Stack France

Talend spark meetup 03042017 - Paris Spark MeetupModern Data Stack France

Paris Spark Meetup - Trifacta - 03_04_2017Modern Data Stack France

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Modern Data Stack France

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...Modern Data Stack France

Hadoop France meetup Feb2016 : recommendations with sparkModern Data Stack France

Hug janvier 2016 -EDFModern Data Stack France

Hugfr SPARK & RIAK -20160114_hug_franceModern Data Stack France

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)Modern Data Stack France

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Modern Data Stack France

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015Modern Data Stack France

Spark ML par Xebia (Spark Meetup du 11/06/2015)Modern Data Stack France

Spark meetup at viadeoModern Data Stack France

Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXModern Data Stack France

The Cascading (big) data application frameworkModern Data Stack France

Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Modern Data Stack France

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...Modern Data Stack France

Mais de Modern Data Stack France (20)

Stash - Data FinOPS

Vue d'ensemble Dremio

From Data Warehouse to Lakehouse

Talend spark meetup 03042017 - Paris Spark Meetup

Paris Spark Meetup - Trifacta - 03_04_2017

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...

Hadoop France meetup Feb2016 : recommendations with spark

Hug janvier 2016 -EDF

Hugfr SPARK & RIAK -20160114_hug_france

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Spark meetup at viadeo

Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX

The Cascading (big) data application framework

Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

2. 2 Présentation de Spark Packages & Co  Comment partager de la données entre différents job Spark ?  Comment s’interfacer avec Spark ?  Comment rendre une application Spark interactive ?

3. 3

4. 4 Comment partager de la données entre différents job Spark ?  Cas d’usage : Plusieurs contextes Spark utilisant un même fichier d’enrichissement.  Solution 1 : Lire et relire et rerelire le même fichier à chaque fois.  Solution 2 : Utiliser Tachyon

5. 5  Open Source  Système de fichier distribué In-memory

6. 6  Utilisation avec Spark mais pas seulement

7. 7  Avec Spark comment ca marche ?

8. 8  Et mon problème de réutilisation ?

9. 9  Et mon code Spark il devient quoi ?

10. 10  Tachyon accède aux données de manière intelligente ?

11. 11  Coté Perf ?

12. 12

13. 13 Spark Packages

14. 14  Spark  Des RDDs :  HadoopRDD, PairRDD, AvroRDD, JsonRDD, JdbcRDD, ESSpark, CassandraRDD etc …  Pour le reste : Hadoop InputFormats Comment s’interfacer avec Spark ?

15. 15  Spark Streaming  Des Dstreams:  File systems, Socket, Akka actors, Kafka, Flume, Kinesis, Twitter  Pour le reste : Custom Receiver ou Camel ??? Comment s’interfacer avec Spark ?

16. 17

17. 18 Comment rendre une application Spark interactive ?  Cas d’usage : Créer une API Rest pour exécuter du Spark et aider au management des contextes Spark.  Solution 1 : Le faire à la main à base d’Akka + Spray etc …  Solution 2 : Utiliser ce qu’il y’a de disponible dans les Spark- Packages

18. 19 Spark-jobserver  Open Source  Gestion des contextes Spark par le JobServer  Gestion des « applications » sous forme de jar  Appel d’applications Synchrone ou Asynchrone  Statuts des jobs exécutés  Gestion de la validation des paramètres avant soumission a Spark

19. 20 Spark-jobserver  Ca ressemble à quoi ?

20. 21 Spark-jobserver  A quoi ressemble mon code Spark ?

21. 22 Spark-jobserver  Comment je l’utilise ?

22. 23 Spark-jobserver  D’un point de vue architecture ?

23. 24  Suivre l’évolution des projets sortant. What next ? ….

24. 25 Q&A ?