Mais conteúdo relacionado
Semelhante a ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料) (20)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
- 2. 自己紹介
濱野 賢一朗 (はまの けんいちろう)
– 日本Hadoopユーザー会のメンバとして、
イベント Hadoop / Spark Conference
Japan や勉強会 Hadoopソースコード
リーディングの企画・実施を担当
– 翔泳社 『Hadoop徹底入門』 監修者
– NTT DATA 技術革新統括本部 に所属
– Hadoop 関係者で話題になった
「経産省の報告書」 の実証事業のPM
平成21年度 産学連携ソフトウェア工学実践事業報告書
高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)
http: //www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf
- 7. Hadoopの構成 (従来)
集中管理型の分散システム
データ管理や
分散処理ジョブ
の管理は
マスタサーバが
実施
スレーブサーバは、
分散処理の
実行や
データの実体を
保存
Hadoopマスタサーバ
Hadoopクライアント
L2/L3スイッチ
NameNode JobTracker
L2スイッチ
Hadoopスレーブサーバ群
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
ディスク ディスク ディスク ディスク ディスク
- 10. MapReduce (アルゴリズム)
Aさん Bさん Cさん
①用紙を適当に3つに分ける
・・
・
・・
・
・・
・
a氏 b氏 e氏 a氏 b氏 e氏 a氏 b氏 e氏
②3人で並行して、
投票者別に用紙を
仕分ける
第1段階
第2段階
第3段階
④3人で並行して、
投票者ごとに
枚数を数える
a氏の
得票数
b氏の
得票数
d氏の
得票数
e氏の
得票数
c氏の
得票数
投票
結果
Aさん Bさん Cさん
a氏 e氏
③投票者ごと
用紙を集める
d氏c氏b氏
- 11. MapReduce (アルゴリズム)
・・
・
・・
・
・・
・
Aさん Bさん Cさん
a氏 b氏 E氏 a氏 b氏 e氏 a氏 b氏 e氏
①用紙を適当に3つに分ける
②3人で並行して、
投票者別に用紙を
仕分ける
a氏 e氏
③投票者ごと
用紙を集める
④3人で並行して、
投票者ごとに
枚数を数える
a氏の
得票数
b氏の
得票数
d氏の
得票数
e氏の
得票数
c氏の
得票数
第1段階
第2段階
第3段階
投票
結果
Aさん Bさん Cさん
d氏c氏b氏
Map処理
データを分類・仕分け
Reduce処理
分類・仕分けされた
データごとに処理
- 12. MapReduce (アルゴリズム)
・・
・
・・
・
・・
・
Aさん Bさん Cさん
a氏 b氏 E氏 a氏 b氏 e氏 a氏 b氏 e氏
①用紙を適当に3つに分ける
②3人で並行して、
投票者別に用紙を
仕分ける
a氏 e氏
③投票者ごと
用紙を集める
④3人で並行して、
投票者ごとに
枚数を数える
a氏の
得票数
b氏の
得票数
d氏の
得票数
e氏の
得票数
c氏の
得票数
第1段階
第2段階
第3段階
投票
結果
Aさん Bさん Cさん
d氏c氏b氏
N人でやれば N倍のスピード
(相互に影響を受けずに作業できる)
N人でやれば 約N倍のスピード
(相互に影響を受けずに作業できる)
- 30. 参考: DataFrame API による開発
Spark 1.3.0 より DataFrame API が利用可能
構造化されたデータの処理が簡潔に記述できる
http://cdn.oreillystatic.com/en/assets/1/event/126/Apache%20Spark_%20What_s%20new_%20what_s%20coming%20Presentation.pdf
DataFrame APIで
同様の処理を記述
- 31. 参考: DataFrame API による開発
Spark SQLのオプティマイザの恩恵が受けられる
オプティマイザによってJVMで動作する物理プランが生成
されるため、開発言語の違いによる著しい性能劣化は
起こらない
http://www.slideshare.net/databricks/introducing-dataframes-in-spark-for-large-scale-data-science
- 32. Hadoop / Spark Conference Japan 2016のアンケート
本番環境で利用中 489人 35.6%
試しに動かしている 374人 27.2%
利用実績なし(利用予定あり) 218人 15.9%
利用実績なし(利用予定なし) 293人 21.3%
3か月未満 145人 16.0%
3か月以上6か月未満 69人 7.6%
6か月以上1年未満 85人 9.4%
1年以上3年未満 298人 33.0%
3年以上 307人 34.0%
本番環境で利用中 160人 11.7%
試しに動かしている 437人 31.8%
利用実績なし(利用予定あり) 348人 25.3%
利用実績なし(利用予定なし) 429人 31.2%
3か月未満 214人 34.4%
3か月以上6か月未満 93人 14.9%
6か月以上1年未満 127人 20.4%
1年以上3年未満 171人 27.4%
3年以上 18人 2.9%
Hadoopの利用状況を教えてください Sparkの利用状況を教えてください
Hadoop利用歴を教えてください Spark利用歴を教えてください
本番環境で利用中 試しに動かしている 実績なし(予定あり) 実績なし(予定なし)