MUG Nantes - MongoDB et son connecteur pour hadoop

•Télécharger en tant que PPTX, PDF•

1 j'aime•1,062 vues

Bruno Bonnin

Présentation et démo (Hive/Spark) du connecteur MongoDB pour Hadoop

Technologie

User Group Nantes
MongoDB et son connecteur
pour Hadoop
Bruno Bonnin - @_bruno_b_

AGENDA
• Rappels sur Hadoop et son éco-système
• Un connecteur, pour quoi faire ?
• Démo avec MongoDB, Hive, Spark (version Java en
300 lignes ou version Python en 8 lignes)
Nantes User Group

HADOOPNantes User Group
Source : http://docs.hortonworks.com/

CONNECTEUR MONGODB POUR HADOOP
• Pour quoi faire ?
• Les entreprises ont des données stockées dans
MongoDB, … et dans Hadoop
• Besoin d’intégration
• Traiter les données à partir de plusieurs
sources (en éliminant des étapes
d’import/export)
• …
Nantes User Group

QUELQUES CAS D’UTILISATIONNantes User Group
Pour des analyses
complexes faites dans
Hadoop (avec des jobs
Map/Reduce)
Traitement de
données de
plusieurs
sources faites
dans Hadoop
(repo central de
données)
Hadoop extrait les
données de données
de diverses sources,
les traite et pousse
les résultats dans
MongoDB

CONNECTEUR MONGODB POUR HADOOP
• Support pour :
• Hive : langage de requêtes SQL-like
• Pig : langage de scripts pour définir des
workflows de traitement
• Spark
• Flume
• …
Nantes User Group

DEMO : HIVENantes User Group
Valeur actions
par minute
Calcul des min/max
dans Hadoop (M/R) +
Jointure avec données
dans Hadoop
1
3
2
Sociétés
Valeur min/max
actions par jour
CREATE EXTERNAL TABLE
SELECT MIN (), MAX()
INSERT
collection
Table Hive
Table Hive

$DEMO : HIVE ADD JAR mongo-java-driver-3.0.3.jar; ADD JAR mongo-hadoop-core-1.4.0.jar; ADD JAR mongo-hadoop-hive-1.4.0.jar; CREATE EXTERNAL TABLE stock_prices ( id STRUCT<oid:STRING, bsontype:INT>, symbol STRING, timestamp STRING, volume INT ) STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler' WITH SERDEPROPERTIES ( 'mongo.columns.mapping'='{"id":"_id", "symbol":"Symbol", "timestamp":"Timestamp", "volume":"Volume"}' ) TBLPROPERTIES( 'mongo.uri'='mongodb://localhost:27017/marketdata.stock_prices' ); Nantes User Group$

DEMO : SPARKNantes User Group
Traitement des données
par Spark (groupBy,
aggregateByKey)
1
3’
2
Résultat #2 :
Stockage dans des
fichiers
Source :
Valeur actions
par minute
collection
HDFS
Résultat #1 :
Valeur min/max
actions par jour
collection
3 SAVE
INSERT
FIND

$DEMO : HIVE from pyspark import SparkContext sc = SparkContext("local", "Test MongoDB Connector") # Config MongoDB inputConfig = { "mongo.input.uri" : "mongodb://localhost:27017/marketdata.stock_prices" } # Config pour RDD qui va lire les data dans MongoDB inputFormatClassName = "com.mongodb.hadoop.MongoInputFormat" keyClassName = "java.lang.Object" valueClassName = "org.bson.BSONObject" stockPricesRDD = sc.newAPIHadoopRDD( inputFormatClassName, keyClassName, valueClassName, None, None, inputConfig ) # Les traitements... prices = stockPricesRDD.values() # ... groupby sur (symbol, day) groupByRDD = prices.groupBy(lambda doc: (doc["Symbol"], doc["Day"])) Nantes User Group$

LIENS
• Plus d’infos:
– http://docs.mongodb.org/ecosystem/tools/hadoop/
– https://github.com/mongodb/mongo-hadoop
• Code:
– Démo :
• https://github.com/bbonnin/MUG-Nantes-Demo-Hadoop
– Complément :
• https://github.com/bbonnin/hadoop-mongodb
Nantes User Group

Recommandé

Tout ce que le getting started mongodb ne vous dira pasBruno Bonnin

Explorez vos données présentes dans MongoDB avec Apache ZeppelinBruno Bonnin

Big Data Viz (and much more!) with Apache ZeppelinBruno Bonnin

MongoDB : la base NoSQL qui réinvente la gestion de donnéesSOAT

Tout ce que le getting started mongo db ne vous dira pasPierre-Alban DEWITTE

Réu technodejsnaholyr

Breizhcamp 2015 - Comment (ne pas réussir à) modéliser ses data dans elastics...Bruno Bonnin

Migrer une application existante vers Elasticsearch - Nuxeo Tour 2014 - workshopNuxeo

Recommandé

Tout ce que le getting started mongodb ne vous dira pasBruno Bonnin

Explorez vos données présentes dans MongoDB avec Apache ZeppelinBruno Bonnin

Big Data Viz (and much more!) with Apache ZeppelinBruno Bonnin

MongoDB : la base NoSQL qui réinvente la gestion de donnéesSOAT

Tout ce que le getting started mongo db ne vous dira pasPierre-Alban DEWITTE

Réu technodejsnaholyr

Breizhcamp 2015 - Comment (ne pas réussir à) modéliser ses data dans elastics...Bruno Bonnin

Migrer une application existante vers Elasticsearch - Nuxeo Tour 2014 - workshopNuxeo

Nouveautés PHP 7 : Introduction et performances - MeetUP OpenskaOpenska

Mongo DBGeoffrey Garnotel

Oxalide Workshop #3 - Elasticearch, an overviewLudovic Piot

L'avenir de LAMPDamien Seguy

Elasticsearch - Montpellier JUGDavid Pilato

Presentation langage go_19022015Stéphane Legrand

MongoDB et Elasticsearch, meilleurs ennemis ?Sébastien Prunier

Node.js et les nouvelles technologies javascriptKhalid Jebbari

Drupal - La puissance de DrushAlexandre Marie

Pratique de la programmation en gokader15

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Modern Data Stack France

Mpdf 4Moez Moezm

Tout comprendre de Nuxeo Drive - Nuxeo Tour 2014 - workshopNuxeo

DrupalCamp Nantes 2016 - Migrer un site Drupal 6 ou Drupal 7 vers Drupal 8Aurelien Navarre

Plugin HAL pour WordpressOAccsd

Initiation à Express jsAbdoulaye Dieng

20111006 bonnes pratiques-gi_g_v1Gilles Guirand

Tout ce que le getting started MongoDB ne vous dira pasBruno Bonnin

Devriez-vous vous déguiser au bureau?Jobboom

Projet de développement d'un site sous Drupal par TamistriansEquipe Tamistrians

Presentation livre blanc inbound marketingLaurent Lenclud

L’épreuve dépressive et le monde du travail - Marcelo Otero - ACSM 4 maiacsmmtl

Contenu connexe

Tendances

Nouveautés PHP 7 : Introduction et performances - MeetUP OpenskaOpenska

Mongo DBGeoffrey Garnotel

Oxalide Workshop #3 - Elasticearch, an overviewLudovic Piot

L'avenir de LAMPDamien Seguy

Elasticsearch - Montpellier JUGDavid Pilato

Presentation langage go_19022015Stéphane Legrand

MongoDB et Elasticsearch, meilleurs ennemis ?Sébastien Prunier

Node.js et les nouvelles technologies javascriptKhalid Jebbari

Drupal - La puissance de DrushAlexandre Marie

Pratique de la programmation en gokader15

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Modern Data Stack France

Mpdf 4Moez Moezm

Tout comprendre de Nuxeo Drive - Nuxeo Tour 2014 - workshopNuxeo

DrupalCamp Nantes 2016 - Migrer un site Drupal 6 ou Drupal 7 vers Drupal 8Aurelien Navarre

Plugin HAL pour WordpressOAccsd

Initiation à Express jsAbdoulaye Dieng

20111006 bonnes pratiques-gi_g_v1Gilles Guirand

Tendances (17)

Nouveautés PHP 7 : Introduction et performances - MeetUP Openska

Mongo DB

Oxalide Workshop #3 - Elasticearch, an overview

L'avenir de LAMP

Elasticsearch - Montpellier JUG

Presentation langage go_19022015

MongoDB et Elasticsearch, meilleurs ennemis ?

Node.js et les nouvelles technologies javascript

Drupal - La puissance de Drush

Pratique de la programmation en go

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015

Mpdf 4

Tout comprendre de Nuxeo Drive - Nuxeo Tour 2014 - workshop

DrupalCamp Nantes 2016 - Migrer un site Drupal 6 ou Drupal 7 vers Drupal 8

Plugin HAL pour Wordpress

Initiation à Express js

20111006 bonnes pratiques-gi_g_v1

En vedette

Tout ce que le getting started MongoDB ne vous dira pasBruno Bonnin

Devriez-vous vous déguiser au bureau?Jobboom

Projet de développement d'un site sous Drupal par TamistriansEquipe Tamistrians

Presentation livre blanc inbound marketingLaurent Lenclud

L’épreuve dépressive et le monde du travail - Marcelo Otero - ACSM 4 maiacsmmtl

Présentation de la journée du poisson lionRaphael Bastide

P'tits médiateurs slideshareCecile Gerst

Pe martinique 2014 04 dengueRaphael Bastide

Présentation e sidocalicante2012

Ceratec - Des carreaux imprimés en HDMarie-Claude Dumont

éMilie fortin tremblaykatmar69

Programm La Marche vers l'unité 1815-1870DHI_Paris

Programme carnaval 2014Raphael Bastide

Bilan des perspectives du marché du travail 2014Jobboom

Fiche Produit CoCo Up Eau de CocoCocoUp

Mon album photo familialAnaJABA

Jehangir Ratanji Dadabhai TataSurendra Shukla

Avez-vous déjà envisagé un changement de carrière?Jobboom

Arrrêté sécheresse 2014Raphael Bastide

Family treegeorgia1o1

En vedette (20)

Tout ce que le getting started MongoDB ne vous dira pas

Devriez-vous vous déguiser au bureau?

Projet de développement d'un site sous Drupal par Tamistrians

Presentation livre blanc inbound marketing

L’épreuve dépressive et le monde du travail - Marcelo Otero - ACSM 4 mai

Présentation de la journée du poisson lion

P'tits médiateurs slideshare

Pe martinique 2014 04 dengue

Présentation e sidoc

Ceratec - Des carreaux imprimés en HD

éMilie fortin tremblay

Programm La Marche vers l'unité 1815-1870

Programme carnaval 2014

Bilan des perspectives du marché du travail 2014

Fiche Produit CoCo Up Eau de Coco

Mon album photo familial

Jehangir Ratanji Dadabhai Tata

Avez-vous déjà envisagé un changement de carrière?

Arrrêté sécheresse 2014

Family tree

Similaire à MUG Nantes - MongoDB et son connecteur pour hadoop

Afterwork hadoopOCTO Technology Suisse

Paris RailsCamp 2009Olivier Gutknecht

Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataDavid Joubert

Digital GraphTour Paris - Neo4j 4.0, les nouveautésNeo4j

Techday Arrow Group: Hadoop & le Big DataArrow Group

Tech day hadoop, SparkArrow-Institute

Hands on lab ElasticsearchDavid Pilato

Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft

Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...Bruno Bonnin

Hadoop et son écosystème - v2Khanh Maudoux

2014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp01MongoDB

Social Network Analysis Utilizing Big Data TechnologyImad ALILAT

Big Data, Hadoop & SparkAlexia Audevart

JSS2014 – Hive ou la convergence entre datawarehouse et Big DataGUSS

Présentation de ElasticSearch / Digital apéro du 12/11/2014Silicon Comté

Hadoop MapReduce - OSDC FR 2009Olivier Grisel

Big Data Visualization PowerPoint Templates.pptxKhadijaHaddaoui

Spark - Ippevent 19-02-2015Alexis Seigneurin

mix-it 2011Olivier Mallassi

BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi

Similaire à MUG Nantes - MongoDB et son connecteur pour hadoop (20)

Afterwork hadoop

Paris RailsCamp 2009

Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data

Digital GraphTour Paris - Neo4j 4.0, les nouveautés

Techday Arrow Group: Hadoop & le Big Data

Tech day hadoop, Spark

Hands on lab Elasticsearch

Big Data: Hadoop Map / Reduce sur Windows et Windows Azure

Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...

Hadoop et son écosystème - v2

2014 03-26-appdevseries-session3-interactingwiththedatabase-fr-phpapp01

Social Network Analysis Utilizing Big Data Technology

Big Data, Hadoop & Spark

JSS2014 – Hive ou la convergence entre datawarehouse et Big Data

Présentation de ElasticSearch / Digital apéro du 12/11/2014

Hadoop MapReduce - OSDC FR 2009

Big Data Visualization PowerPoint Templates.pptx

Spark - Ippevent 19-02-2015

mix-it 2011

BigData_TP1: Initiation à Hadoop et Map-Reduce

Plus de Bruno Bonnin

[Devoxx MA 2023] R2DBC = R2D2 + JDBC (enfin presque...)Bruno Bonnin

Stream processing avec Apache PulsarBruno Bonnin

Stream processing et SQLBruno Bonnin

Jug summer camp 2017 - Vue.js, même un dev java peut en faire !Bruno Bonnin

A la découverte de vue.jsBruno Bonnin

Vue.js, même un dev java peut en faire !Bruno Bonnin

Vue, j’avais pas vu !Bruno Bonnin

Apache Spark avec NodeJS ? Oui, c'est possible avec EclairJS !Bruno Bonnin

Explorez vos données avec apache zeppelinBruno Bonnin

Plus de Bruno Bonnin (12)

[Devoxx MA 2023] R2DBC = R2D2 + JDBC (enfin presque...)

Stream processing avec Apache Pulsar

Stream processing et SQL

Jug summer camp 2017 - Vue.js, même un dev java peut en faire !

A la découverte de vue.js

Vue.js, même un dev java peut en faire !

Vue, j’avais pas vu !

Apache Spark avec NodeJS ? Oui, c'est possible avec EclairJS !

Explorez vos données avec apache zeppelin

MUG Nantes - MongoDB et son connecteur pour hadoop

1. User Group Nantes MongoDB et son connecteur pour Hadoop Bruno Bonnin - @_bruno_b_

2. AGENDA • Rappels sur Hadoop et son éco-système • Un connecteur, pour quoi faire ? • Démo avec MongoDB, Hive, Spark (version Java en 300 lignes ou version Python en 8 lignes) Nantes User Group

3. HADOOPNantes User Group Source : http://docs.hortonworks.com/

4. HADOOPNantes User Group Source : http://docs.hortonworks.com/

5. CONNECTEUR MONGODB POUR HADOOP • Pour quoi faire ? • Les entreprises ont des données stockées dans MongoDB, … et dans Hadoop • Besoin d’intégration • Traiter les données à partir de plusieurs sources (en éliminant des étapes d’import/export) • … Nantes User Group

6. QUELQUES CAS D’UTILISATIONNantes User Group Pour des analyses complexes faites dans Hadoop (avec des jobs Map/Reduce) Traitement de données de plusieurs sources faites dans Hadoop (repo central de données) Hadoop extrait les données de données de diverses sources, les traite et pousse les résultats dans MongoDB

7. CONNECTEUR MONGODB POUR HADOOP • Support pour : • Hive : langage de requêtes SQL-like • Pig : langage de scripts pour définir des workflows de traitement • Spark • Flume • … Nantes User Group

8. DEMO : HIVENantes User Group Valeur actions par minute Calcul des min/max dans Hadoop (M/R) + Jointure avec données dans Hadoop 1 3 2 Sociétés Valeur min/max actions par jour CREATE EXTERNAL TABLE SELECT MIN (), MAX() INSERT collection Table Hive Table Hive

9. DEMO : HIVE ADD JAR mongo-java-driver-3.0.3.jar; ADD JAR mongo-hadoop-core-1.4.0.jar; ADD JAR mongo-hadoop-hive-1.4.0.jar; CREATE EXTERNAL TABLE stock_prices ( id STRUCT<oid:STRING, bsontype:INT>, symbol STRING, timestamp STRING, volume INT ) STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler' WITH SERDEPROPERTIES ( 'mongo.columns.mapping'='{"id":"_id", "symbol":"Symbol", "timestamp":"Timestamp", "volume":"Volume"}' ) TBLPROPERTIES( 'mongo.uri'='mongodb://localhost:27017/marketdata.stock_prices' ); Nantes User Group

10. DEMO : SPARKNantes User Group Traitement des données par Spark (groupBy, aggregateByKey) 1 3’ 2 Résultat #2 : Stockage dans des fichiers Source : Valeur actions par minute collection HDFS Résultat #1 : Valeur min/max actions par jour collection 3 SAVE INSERT FIND

11. DEMO : HIVE from pyspark import SparkContext sc = SparkContext("local", "Test MongoDB Connector") # Config MongoDB inputConfig = { "mongo.input.uri" : "mongodb://localhost:27017/marketdata.stock_prices" } # Config pour RDD qui va lire les data dans MongoDB inputFormatClassName = "com.mongodb.hadoop.MongoInputFormat" keyClassName = "java.lang.Object" valueClassName = "org.bson.BSONObject" stockPricesRDD = sc.newAPIHadoopRDD( inputFormatClassName, keyClassName, valueClassName, None, None, inputConfig ) # Les traitements... prices = stockPricesRDD.values() # ... groupby sur (symbol, day) groupByRDD = prices.groupBy(lambda doc: (doc["Symbol"], doc["Day"])) Nantes User Group

12. LIENS • Plus d’infos: – http://docs.mongodb.org/ecosystem/tools/hadoop/ – https://github.com/mongodb/mongo-hadoop • Code: – Démo : • https://github.com/bbonnin/MUG-Nantes-Demo-Hadoop – Complément : • https://github.com/bbonnin/hadoop-mongodb Nantes User Group

13. MERCI !Nantes User Group