Enviar pesquisa
Carregar
BdasとSpark概要
•
6 gostaram
•
2,963 visualizações
Y
Yu Ishikawa
Seguir
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 36
Baixar agora
Baixar para ler offline
Recomendados
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SAS Institute Japan
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
datastaxjp
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph
Yuki Morishita
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
Satoru Ishikawa
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
NTT DATA OSS Professional Services
Recomendados
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SAS Institute Japan
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
datastaxjp
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph
Yuki Morishita
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
Satoru Ishikawa
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
NTT DATA OSS Professional Services
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Insight Technology, Inc.
RDB開発者のためのApache Cassandra データモデリング入門
RDB開発者のためのApache Cassandra データモデリング入門
Yuki Morishita
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
MapR Technologies Japan
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
Hadoop 基礎
Hadoop 基礎
hideaki honda
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ
株式会社クライム
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
Hadoop によるゲノム解読
Hadoop によるゲノム解読
MapR Technologies Japan
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
maruyama097
クラウドHPCへ移行への原動力とITロードマップ
クラウドHPCへ移行への原動力とITロードマップ
Rescale Japan株式会社
(LT)Spark and Cassandra
(LT)Spark and Cassandra
datastaxjp
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
Yoji Kiyota
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
Satoru Ishikawa
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
Insight Technology, Inc.
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
DataWorks Summit
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
i love you
i love you
Kuch Bas Mohabbatein
「チーム開発実践入門」勉強会
「チーム開発実践入門」勉強会
Yu Ishikawa
Mais conteúdo relacionado
Mais procurados
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Insight Technology, Inc.
RDB開発者のためのApache Cassandra データモデリング入門
RDB開発者のためのApache Cassandra データモデリング入門
Yuki Morishita
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
MapR Technologies Japan
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
Hadoop 基礎
Hadoop 基礎
hideaki honda
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ
株式会社クライム
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
Hadoop によるゲノム解読
Hadoop によるゲノム解読
MapR Technologies Japan
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
maruyama097
クラウドHPCへ移行への原動力とITロードマップ
クラウドHPCへ移行への原動力とITロードマップ
Rescale Japan株式会社
(LT)Spark and Cassandra
(LT)Spark and Cassandra
datastaxjp
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
Yoji Kiyota
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
Satoru Ishikawa
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
Insight Technology, Inc.
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
DataWorks Summit
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
Mais procurados
(20)
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
RDB開発者のためのApache Cassandra データモデリング入門
RDB開発者のためのApache Cassandra データモデリング入門
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
Hadoop 基礎
Hadoop 基礎
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Hadoop loves H2
Hadoop loves H2
Hadoop によるゲノム解読
Hadoop によるゲノム解読
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
クラウドHPCへ移行への原動力とITロードマップ
クラウドHPCへ移行への原動力とITロードマップ
(LT)Spark and Cassandra
(LT)Spark and Cassandra
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
Destaque
i love you
i love you
Kuch Bas Mohabbatein
「チーム開発実践入門」勉強会
「チーム開発実践入門」勉強会
Yu Ishikawa
2014 09-12 lambda-architecture-at-indix
2014 09-12 lambda-architecture-at-indix
Yu Ishikawa
TIPs for learning Python
TIPs for learning Python
Takeshi Akutsu
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
Yu Ishikawa
Word2vecで大谷翔平の二刀流論争に終止符を打つ!
Word2vecで大谷翔平の二刀流論争に終止符を打つ!
Takami Sato
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
2016-06-15 Sparkの機械学習の開発と活用の動向
2016-06-15 Sparkの機械学習の開発と活用の動向
Yu Ishikawa
NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manif...
NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manif...
Takami Sato
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Yu Ishikawa
Overview of tree algorithms from decision tree to xgboost
Overview of tree algorithms from decision tree to xgboost
Takami Sato
セクシー女優で学ぶ画像分類入門
セクシー女優で学ぶ画像分類入門
Takami Sato
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Takami Sato
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
NTT DATA OSS Professional Services
強化学習@PyData.Tokyo
強化学習@PyData.Tokyo
Naoto Yoshida
最適化超入門
最適化超入門
Takami Sato
High performance python computing for data science
High performance python computing for data science
Takami Sato
Rユーザのためのspark入門
Rユーザのためのspark入門
Shintaro Fukushima
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Destaque
(20)
i love you
i love you
「チーム開発実践入門」勉強会
「チーム開発実践入門」勉強会
2014 09-12 lambda-architecture-at-indix
2014 09-12 lambda-architecture-at-indix
TIPs for learning Python
TIPs for learning Python
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
Word2vecで大谷翔平の二刀流論争に終止符を打つ!
Word2vecで大谷翔平の二刀流論争に終止符を打つ!
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
2016-06-15 Sparkの機械学習の開発と活用の動向
2016-06-15 Sparkの機械学習の開発と活用の動向
NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manif...
NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manif...
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Overview of tree algorithms from decision tree to xgboost
Overview of tree algorithms from decision tree to xgboost
セクシー女優で学ぶ画像分類入門
セクシー女優で学ぶ画像分類入門
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
強化学習@PyData.Tokyo
強化学習@PyData.Tokyo
最適化超入門
最適化超入門
High performance python computing for data science
High performance python computing for data science
Rユーザのためのspark入門
Rユーザのためのspark入門
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Semelhante a BdasとSpark概要
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
はやわかりHadoop
はやわかりHadoop
Shinpei Ohtani
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sql
Yutuki r
Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介
オラクルエンジニア通信
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
Osc2012 spring HBase Report
Osc2012 spring HBase Report
Seiichiro Ishida
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
Shinichi YAMASHITA
Hadoopとは
Hadoopとは
Hirokazu Yatsunami
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
Akira Shimosako
Cassandra(no sql)によるシステム提案と開発
Cassandra(no sql)によるシステム提案と開発
kishimotosc
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
Amazon Web Services Japan
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
Shinichi YAMASHITA
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
HBaseCon 2012 参加レポート
HBaseCon 2012 参加レポート
NTT DATA OSS Professional Services
Semelhante a BdasとSpark概要
(20)
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
はやわかりHadoop
はやわかりHadoop
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sql
Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
Osc2012 spring HBase Report
Osc2012 spring HBase Report
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
Hadoopとは
Hadoopとは
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
Cassandra(no sql)によるシステム提案と開発
Cassandra(no sql)によるシステム提案と開発
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
HBaseCon 2012 参加レポート
HBaseCon 2012 参加レポート
BdasとSpark概要
1.
BDAS と Spark
概要
2.
目的 大規模分散処理とその上で動く機械学習コンポー ネントのトレンドを紹介
3.
Agenda BDAS 概要 Spark 概要 おまけ Cascading
と Pattern MLlib
4.
BDAS 概要
5.
Hadoop エコシステムと移行コスト HDFS のデータを新しいシス テムに移動するのは高コスト できるだけ上のレイヤーを変 えることで
Hadoop 自体の 欠点を吸収する方が良さそう
6.
データの移行が大変なので アプリケーション側で吸収 するような方向になるはず
7.
そこで BDAS
8.
What is DBAS
? the Berkeley Data Analytics Stack, is an open source software stack that integrates software components being built by the AMPLab to make sense of Big Data.
9.
BDAS の全体像
10.
BDAS のスポンサー
11.
BDAS のコンポーネント1 ● Apache
Mesos ○ リソースマネージャー ● Tackyon ○ Distributed fault-tolerance in-memory ○ メモリに乗らない場合はディスクキャッシュ(?) ● Apache Spark ○ 大規模 in-memory 処理フレームワーク
12.
BDAS のコンポーネント2 ● Spark
Streaming ○ Spark でストリーミング処理 ● GraphX(開発途上) ○ ネットワーク分析用のシステム ● MLbase(開発途上) ○ Spark 向け大規模分散機械学習ライブラリ ● Shark ○ Hive の Spark 版
13.
Shark の簡単な紹介 ● in-memory
で SQL like に処理を実行 ○ Cloudera Impara みたいなもの(?) ● Spark の上で動いている ○ MapReduce based Architecture ● Hive Compatible ● SQL 以外にも複雑な分析を実行できる(らしい)
14.
Spark 概要
15.
Hadoop MapReduce の欠点 ●
アルゴリズムとしての欠点 ○ リアルタイム ○ 分散処理間のデータのやり取り(SVM 無理とか) ● Hadoop としての欠点 ○ 多段階 MapReduce のとき、都度各 JobTracker で JVM を起動するので処理をしていない時間に無駄が多 い ○ MapReduce に HDFS の IO が必要なので、read/write の時間が無駄
16.
Hadoop は stable
strage が対象 データを再利用する処理に向いていない
17.
でも繰り返し処理 とか更新処理したいし…
18.
Spark とは ● in-memory
で分散処理をするためのコンポー ネント ● Hadoop MapReduce には向いていないアルゴ リズムを実装できる ○ Iterative Algorithm ■ k-means のような ML や Network Analysis ○ Interactive Data Mining ■ Scala を拡張したコンソールで対話的に実行
19.
実装まわりの基礎知識 ● 開発言語:Scala ○ 対話環境もある ●
Hadoop で使える input resource を利用可能 ○ ex) HDFS, S3, etc.
20.
RDD (Resilient Distributed
Datasets) ● 効率的に大規模データも分散メモリとして保持する機構 ○ Fault tolerance, data locality, scalability ● イミュータブルで分割されたオブジェクトのコレクション ● 並列処理(map、filter、groupBy、join)をストレージ上の データに適用した結果生成 ● 再利用するためにメモリ上にキャッシュされる
21.
Spark を利用したアプリケーション ● ● ● ● ● インメモリに対するHiveによるデータマイニング(Conviva) 予測分析(Quantifind) 市街のトラフィック予測(Mobile Millennium) TwitterのSpan判定(Monarch) 行列因子分解による協調フィルタリング
22.
RDD Fault Tolerance ●
メモリ上のデータが欠損したときに,元データが どれでどういう風に処理されたものであるかな どが保持
23.
コードサンプル:Log Mining
24.
実装例紹介:Logistic Regression
25.
実装例紹介:Logistic Regression
26.
Hadoop とのパフォーマンス比較
27.
I/O がなくなることや 反復的 JVM
起動がなくなるので 早くなる
28.
メモリに全部乗りません メモリにのせられるだけ乗せて処理
29.
本当に Fault Tolerance
なの?
30.
Spark で使えるオペレーション
31.
Spark まとめ ● Hadoop
MapReduce が苦手とする処理を補う ための分散メモリ上の処理コンポーネント ● メモリにデータがのるならMapReduce より速い ● 開発言語は Scala ● Hive みたいに Shark で SQL を書ける
32.
おまけ
33.
MLib ● ● Spark 向け機械学習ライブラリ ○ Mahout
on Hadoop みたいなもの サポートしている機械学習タイプ ○ Binary classification ■ Linear Support Vector Machines (SVMs) ■ Logistic Regression ○ Linear Regression ■ LinearRegressionWithSGD ■ RidgeRegressionWithSGD ■ LassoWithSGD ○ Clustering ■ k-means ○ Collaborative filtering ■ alternating least squares (ALS)
34.
Cascading と Pattern ●
Cascading ○ Hadoop 上の処理をより簡単に書くためのフレームワー ク ○ 開発言語:Scala ● Cascading Pattern ○ Cascading で記述できる機械学習ライブラリ ○ Predictive Model Markup Language (PMML) 対応 ■ SPSS, R などで記述した処理を PMML に出力して Pattern で実行
35.
Cascading Pattern がサポートする機械学習 ● ● ● ● ● Hierarchical
Clustering K-Means Clustering Linear Regression Logistic Regression Random Forest Algorithm ● アルゴリズムを追加して欲しい場合は要請 ○ http://www.surveymonkey.com/s/FG7D7VT
36.
参考 ● ● ● ● http://spark.incubator.apache.org/talks/overview.pdf https://amplab.cs.berkeley.edu/software/ http://d.hatena.ne.jp/kimutansk/20130901/1378023152 http://www.cascading.org/pattern/
Baixar agora