6. Spark Summit EAST 2015 大木基至
6
Spark とは?
• Hadoopとの⽐比較ーデータ処理理の流流れ
MapReduceはディスクベースで処理理
各ステージ(処理理の単位)処理理はオンメモリで実⾏行行
M
Spark
Hadoop
R R R
HDFS
処理理
読 読 読書 書 書
S S S
HDFS
処理理
読 読 読書 書 書
11. Spark Summit EAST 2015 大木基至
11
2014年年のSpark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
12. Spark Summit EAST 2015 大木基至
12
2014年年のSpark
Matei「データサイエンスの中で今最もアクティブなプロジェクトだ」
Contributors per Month to Spark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
14. Spark Summit EAST 2015 大木基至
14
2015年年の焦点は以下の2つ
• 1. Data Science
– データフレームをRDDで(2015年年3⽉月リリースのSpark 1.3から)
– Machine Learning Pipelinesの開発も引き続き
– R interfaceの充実(2015/6リリースのSpark 1.4でSparkR!)
所感:2015年年度度はデータサイエンス系の⼈人材を引き込もうとしている
• 2. Platform Interfaces Plug in data sources
and algorithms
– 外部のData Soucesインターフェースを充実させる
• MySQL、Hive、Hbaseとのインターフェース。例例えば、SQLライ
クな⽂文法で呼べるようになる
– Goalとして、”unified engine across data sources”
New Direction for Spark in 2015(Matei, CTO, Databricks)
15. Spark Summit EAST 2015 大木基至
15
New Direction for Spark in 2015(Matei, CTO, Databricks)
所感:Sparkがデータソースとそれらを分析するツールを統合化した
コアエンジンになることを⽬目指している
16. Spark Summit EAST 2015 大木基至
16
Harnessing the Power of Spark with Databricks Cloud
• Ion Stoica(CEO at databricks)が講演
• Databricks Cloudのご紹介
– Databricks社のクラウド型の統合分析プラットフォーム
• Notebook型のインターフェース
• Scala, Python, SQL
• クラウド基盤はAWSで、計算エンジンがSpark + Cluster Manager
→
Notebook型イン
ターフェースで分析
ダッシュボードとし
て共有
分析がジョブと
して実⾏行行される
17. Spark Summit EAST 2015 大木基至
17
Harnessing the Power of Spark with Databricks Cloud
• Databricks Cloud プラットフォーム
23. Spark Summit EAST 2015 大木基至
23
Spark ML Pipelines
• データの選択、前処理理、変換の⼀一気通貫した実⾏行行を提供
①Tokenizer:
データの選択/変換しトークン化
②hashingTF:
データの特徴抽出(TF-‐‑‒IDF)
③lr:
(パラメータを変化させながら)モデル
作成
ML Pipelinesの⼀一例例
④Pipelines実⾏行行
①
②
③
④
24. Spark Summit EAST 2015 大木基至
24
Spark ML Pipelines
• Practical Machine Learning Pipelines with Mllib
– Joseph Bradley (Databricks)
– ML Pipelinesの紹介
• Spark 1.2以上で使⽤用可能だが、まだ実験的な段階
• 他にも、グリッドサーチによるパラメータ選択・Cross Validationによる
モデル選択なども実装できている
• 今後、データ選択、変換、特徴抽出のアルゴリズムなどをさらに実装して
いくとFuture Plan…だが、Roadmap的にやること⼭山積みのまま、Spark
1.3もリリースした印象
• データサイエンスの中でユースケースの話しは特になし
– まだ使える⼿手法が限定されている
28. Spark Summit EAST 2015 大木基至
28
Spark Streaming
• Streaming machine learning in Spark
– Jeremy Freeman (HHMI Janelia Research Center)
• Neuroscientist using computation to understand the brain
– Mlib+Spark Streming
• K-means Streaming, Streaming Linear Regression, Time Series
analysis… など
• 個⼈人的には⼀一番しっかりSparkらしい分析をしていた
34. Spark Summit EAST 2015 大木基至
34
PyData NYC
• テーマ
– Project Jupyter for Data Science
– Matplotlib and the IPython notebook
– shapeshifting for your data
– A couple of tips for winning data science competitions
• ポイント
– Jupyter(Julia + Python + R)
• マルチ⾔言語を1つのnotebookインタフェースで分析できるように
– 分析、レジュメ作成、プレゼン、公開まですべてnotebookで
• データサイエンティストの分析をnotebookに集めようとしている
• Notebookインタフェースを使ってプレゼンも
1. PyData:http://datadrivennyc.com/
2. PyData Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ