Spark une alternative à Hadoop MapReduce pour le Datamining

•

6 gostaram•3,999 visualizações

Modern Data Stack France

A l'occoasion de Solutions Linux, une introduction à Spark

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HUG France SL2013 – Mai 2013
Introduction à Spark
Alternative à Hadoop MapReduce
pour le Data Mining
Tugdual Sarazin
Altic - http://altic.org
Tugdual.sarazin@altic.org
@TugdualSarazin

Mais conteúdo relacionado

Mais procurados

Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataDavid Joubert

Hadoop Hbase - IntroductionBlandine Larbret

Hadoop and friends : introductionfredcons

Hadoop chez KobojoModern Data Stack France

Hadopp Vue d'ensembleModern Data Stack France

HDFS HA : Stockage à haute disponibilité par Damien HardyOlivier DASINI

Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX

Annexe Big DataAmal Abid

Dépasser map() et reduce()Modern Data Stack France

HadoopAS Stitou

Une Introduction à HadoopModern Data Stack France

Chapitre 2 hadoopMouna Torjmen

Hadoop et son écosystèmeKhanh Maudoux

Hadoop MapReduce - OSDC FR 2009Olivier Grisel

Cours Big Data Chap3Amal Abid

Tech day hadoop, SparkArrow-Institute

HortonworkAS Stitou

Cours Big Data Chap2Amal Abid

HCatalogModern Data Stack France

TP1 Big Data - MapReduceAmal Abid

Mais procurados (20)

Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data

Hadoop Hbase - Introduction

Hadoop and friends : introduction

Hadoop chez Kobojo

Hadopp Vue d'ensemble

HDFS HA : Stockage à haute disponibilité par Damien Hardy

Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop

Annexe Big Data

Dépasser map() et reduce()

Hadoop

Une Introduction à Hadoop

Chapitre 2 hadoop

Hadoop et son écosystème

Hadoop MapReduce - OSDC FR 2009

Cours Big Data Chap3

Tech day hadoop, Spark

Hortonwork

Cours Big Data Chap2

HCatalog

TP1 Big Data - MapReduce

Destaque

Spark (v1.3) - Présentation (Français)Alexis Seigneurin

Introduction sparkProbst Ludwine

Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin

Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine

spark_intro_1208Mehdi Erraki

Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...Jean-Michel Franco

Ben BroeckxJunta de Castilla y León

Scala io2013 : Our journey from UML/MDD to Scala macrosebiznext

MapReduce au Niveau RP*UHBC

Reseaux andrew tanenbaum pdf telechargerprakatsuranjana1456

0712_SeigneurinAlexis Seigneurin

Spark - Alexis Seigneurin (Français)Alexis Seigneurin

Présentation de Apache ZookeeperMichaël Morello

Apache Kafka at LinkedInDiscover Pinterest

I Heart Log: Real-time Data and Apache KafkaJay Kreps

Introduction to Apache Kafka- Part 1Knoldus Inc.

Spark RDD : Transformations & ActionsMICHRAFY MUSTAFA

Spark SQL principes et fonctionsMICHRAFY MUSTAFA

Apache SPARK ML : principes, concepts et mise en œuvre MICHRAFY MUSTAFA

Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft

Destaque (20)

Spark (v1.3) - Présentation (Français)

Introduction spark

Spark, ou comment traiter des données à la vitesse de l'éclair

Big Data: Concepts, techniques et démonstration de Apache Hadoop

spark_intro_1208

Spark : 5 moyens simples et rapides pour exploiter vos Big Data avec Spark et...

Ben Broeckx

Scala io2013 : Our journey from UML/MDD to Scala macros

MapReduce au Niveau RP*

Reseaux andrew tanenbaum pdf telecharger

0712_Seigneurin

Spark - Alexis Seigneurin (Français)

Présentation de Apache Zookeeper

Apache Kafka at LinkedIn

I Heart Log: Real-time Data and Apache Kafka

Introduction to Apache Kafka- Part 1

Spark RDD : Transformations & Actions

Spark SQL principes et fonctions

Apache SPARK ML : principes, concepts et mise en œuvre

Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data

Semelhante a Spark une alternative à Hadoop MapReduce pour le Datamining

Retour Hadoop Summit 2012Modern Data Stack France

Talend Open Studio for Big Data (powered by Apache Hadoop)Modern Data Stack France

Présentation des bases de données HTML5Mael Monnier

Comment travailler avec les logiciels Open SourceChristian Charreyre

Atelier hadoop-single-sign-onsahar dridi

Sahara : Hadoop as Service avec OpenStackALTIC Altic

[AzureCamp 24 Juin 2014] Azure Media Services par Xavier PouyatMicrosoft Technet France

Un Voyage Au Cœur Du CachePierre Lannoy

20190520 - IBM Cloud Paris-Saclay Meetup - Hardis GroupIBM France Lab

Drupalcamp Nantes - Optimisations drupalArtusamak

Présentation CoreOSgcatt

Open source et microsoft azure reve ou realite ?Christophe Villeneuve

NetApp PartnersTour 2011 à Lille, mon point de vueOlivier (DaffyDuke) Duquesne

Open Source et Microsoft Azure, rêve ou réalité ?Microsoft

Hadoop et Microsoft: les dernières avancées dans le cloud et à demeure Modern Data Stack France

Introduction à Google Web Toolkit (GWT) - Philippe Kernevez - February 2009JUG Lausanne

Confoo - 2012-02-27 au 2012-02-28 - HTML5 workshopFrédéric Harper

Aqui hadoop draftEric Papet

Devoxx 2017 : toutes les actualités technologiques à surveiller !Société ELOSI

Infrastructure - Monitoring - CactiFrédéric FAURE

Semelhante a Spark une alternative à Hadoop MapReduce pour le Datamining (20)

Retour Hadoop Summit 2012

Talend Open Studio for Big Data (powered by Apache Hadoop)

Présentation des bases de données HTML5

Comment travailler avec les logiciels Open Source

Atelier hadoop-single-sign-on

Sahara : Hadoop as Service avec OpenStack

[AzureCamp 24 Juin 2014] Azure Media Services par Xavier Pouyat

Un Voyage Au Cœur Du Cache

20190520 - IBM Cloud Paris-Saclay Meetup - Hardis Group

Drupalcamp Nantes - Optimisations drupal

Présentation CoreOS

Open source et microsoft azure reve ou realite ?

NetApp PartnersTour 2011 à Lille, mon point de vue

Open Source et Microsoft Azure, rêve ou réalité ?

Hadoop et Microsoft: les dernières avancées dans le cloud et à demeure

Introduction à Google Web Toolkit (GWT) - Philippe Kernevez - February 2009

Confoo - 2012-02-27 au 2012-02-28 - HTML5 workshop

Aqui hadoop draft

Devoxx 2017 : toutes les actualités technologiques à surveiller !

Infrastructure - Monitoring - Cacti

Mais de Modern Data Stack France

Stash - Data FinOPSModern Data Stack France

Vue d'ensemble DremioModern Data Stack France

From Data Warehouse to LakehouseModern Data Stack France

Talend spark meetup 03042017 - Paris Spark MeetupModern Data Stack France

Paris Spark Meetup - Trifacta - 03_04_2017Modern Data Stack France

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Modern Data Stack France

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...Modern Data Stack France

Hadoop France meetup Feb2016 : recommendations with sparkModern Data Stack France

Hug janvier 2016 -EDFModern Data Stack France

HUG France - 20160114 industrialisation_process_big_data CanalPlusModern Data Stack France

Hugfr SPARK & RIAK -20160114_hug_franceModern Data Stack France

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)Modern Data Stack France

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Modern Data Stack France

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Modern Data Stack France

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015Modern Data Stack France

Spark dataframeModern Data Stack France

June Spark meetup : search as recommandationModern Data Stack France

Spark ML par Xebia (Spark Meetup du 11/06/2015)Modern Data Stack France

Spark meetup at viadeoModern Data Stack France

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielModern Data Stack France

Mais de Modern Data Stack France (20)

Stash - Data FinOPS

Vue d'ensemble Dremio

From Data Warehouse to Lakehouse

Talend spark meetup 03042017 - Paris Spark Meetup

Paris Spark Meetup - Trifacta - 03_04_2017

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...

Hadoop France meetup Feb2016 : recommendations with spark

Hug janvier 2016 -EDF

HUG France - 20160114 industrialisation_process_big_data CanalPlus

Hugfr SPARK & RIAK -20160114_hug_france

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015

Spark dataframe

June Spark meetup : search as recommandation

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Spark meetup at viadeo

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Spark une alternative à Hadoop MapReduce pour le Datamining

1. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HUG France SL2013 – Mai 2013 Introduction à Spark Alternative à Hadoop MapReduce pour le Data Mining Tugdual Sarazin Altic - http://altic.org Tugdual.sarazin@altic.org @TugdualSarazin

2. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Data Mining avec Hadoop Apprentissage (très) long à cause des nombreux accès à l'HDFS Iter. 1 Lecture HDFS Écriture HDFS Iter. 2 Lecture HDFS Écriture HDFS . . .

3. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Data Mining avec Hadoop Une seule lecture des données puis traitement en mémoire Iter. 1 Lecture HDFS Écriture RAM Iter. 2 Lecture RAM Écriture RAM . . .

4. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Les concepts de Spark Objectif : travailler sur des collections distribuées comme vous le feriez en local ● Resilient Distributed Datasets (RDDs) ● Collection d'objets immuables et partitionnés ● Stockage en colonne ● Persistance contrôlable (mise en cache en RAM) ● MapReduce like ● Transformations (ex: map, filter, groupBy, join) ● Actions (ex: count, collect, save)

5. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Développé en Scala ● Bytecode Java (exécutable sur la JVM) ● Mode interactif : console Scala ● Syntaxe concise file = spark.textFile("hdfs://...") file.flatMap(line => line.split(" ")) .map(word => (word, 1)) .reduceByKey(_ + _)

6. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Et si il n'y a pas assez de mémoire? Stockage sur le système de fichiers locale si il n'y a pas assez de RAM disponible.

7. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Fault Tolerance ● Reprise

8. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Les Tables HBase comme structure de données Moteur SQL Graph processing Traitement flux

9. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Shark : Hive pour Spark ● HiveQL ~= SQL ● Compatible avec Hive data (HDFS, HBase) et metastore ● 100x plus rapide que Hive

10. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Shark + Spark = PL/SQL 2.0 ● Le meilleur de chaque langage : ● SQL pour la sélection ● Scala pour le traitement val youngUsers = sql2rdd("SELECT * FROM users WHERE age < 20") println(youngUsers.count) val featureMatrix = youngUsers.mapRows(extractFeatures(_)) kmeans(featureMatrix)

11. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ MLBase (dev) ● Système de machine learning basé sur Spark ● Sélection automatique du meilleur algorithme ● Optimisation des paramètres ● Utilisation interactive

12. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HUG France SL2013 – Mai 2013 Introduction à Spark Merci ! Tugdual Sarazin Altic - http://altic.org Tugdual.sarazin@altic.org @TugdualSarazin

Spark une alternative à Hadoop MapReduce pour le Datamining

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Spark une alternative à Hadoop MapReduce pour le Datamining

Semelhante a Spark une alternative à Hadoop MapReduce pour le Datamining (20)

Mais de Modern Data Stack France

Mais de Modern Data Stack France (20)

Spark une alternative à Hadoop MapReduce pour le Datamining