15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

ビッグデータ分析基盤Sparkの
最新動向とその活⽤用
-‐‑‒ Spark SUMMIT EAST 2015 –
2015年年3⽉月17⽇日〜～18⽇日
⼤大⽊木基⾄至
ohki@inulab.sys.es.osaka-‐‑‒u.ac.jp

Spark Summit EAST 2015　大木基至
2
01. Spark とカンファレンス概要
Spark とは？
•  Sparkとは
–  公式サイトでは、
　⇛Apache Sparkは⼤大規模データ処理理のための⾼高速で汎⽤用的なエンジン

3
Spark とは？
•  Sparkとは
–  UC Berkeleyの研究組織「AMPLab.」で開発されたOSS
–  開発の中⼼心企業は⽶米Databricks社
•  ラボからIon Stoica⽒氏らがスピンアウトして設⽴立立したベンチャー企業
–  分散クラスタ型のデータ処理理エンジンで、インメモリでビッグデータ
を並列列分散処理理する
–  ビッグデータの分散処理理としてはhadoopが有名であるが、ストレー
ジベースの処理理⽅方式のため、あまり⾼高速ではない
–  対してsparkはデータを⼀一旦メモリにキャッシュし、メモリ上で処理理
を⾏行行うため、繰り返し処理理ではとても⾼高速

4
Spark とは？
開発履履歴
⽇日付 Ver. 内容
2009年年 - UC Berkleyの研究組織「AMPLab.」にて開発開始
2010年年 - OSS化。その後Apacheソフトウェア財団にコードを寄贈
2012年年10⽉月 0.6.0 スタンドアロンモード、Java APIサポート
2013年年2⽉月 0.7.0 Python APIサポート、ストリーミングサポート
2013年年9⽉月 0.8.0 UIにジョブのダッシュボードが追加、Mlibサポート
2014年年2⽉月 0.9.0 Scala2.10サポート、GraphXサポート
2014年年5⽉月 1.0.0 Spark SQLサポート、Mlibのアルゴリズム充実
2014年年11⽉月 1.1.0 マイナーリリース
2014年年12⽉月 1.2.0 パフォーマンス改善、Spark StreamingのHAサポート
2015年年3⽉月 1.3.0 DataFrames APIサポート
2015年年4⽉月 1.3.1 メンテナンスリリース

5
Spark とは？
•  Hadoopとの⽐比較ーレイヤスタック図
–  下回りの構成は同じ。
–  MapReduceがSparkに置き換わったイメージ
Spark
HDFS
MapReduce
Spark
SQL
MlibHive Sqoop
YARN Mesos
SparkHadoop
YARN：分散処理理フレームワーク。アプリケーションからのリソース要求のハンドリングやスケジューリングを⾏行行う
Mesos：分散アプリケーション or フレームワークに対して、効率率率的なリソース分離離、共有を提供するクラスタ管理理ソフト
… …
HDFS
YARN Mesos

6
Spark とは？
•  Hadoopとの⽐比較ーデータ処理理の流流れ
MapReduceはディスクベースで処理理
各ステージ（処理理の単位）処理理はオンメモリで実⾏行行
M
Spark
Hadoop
R R R
HDFS
処理理
読読読書書書
S S S
HDFS
処理理
読読読書書書

7
Spark とは？
•  Hadoopとの⽐比較
–  共通点
•  ASF(Apache Software Foundation)のトップレベルPJ
•  分散ファイルシステム（HDFS）からファイルをロード可能
•  MapReduceプログラミングモデル
•  SQLのインタフェイスや機械学習等のライブラリが充実
–  相違点
•  メモリ上にデータをキャシュして処理理可能
•  Scala, Pythonのユーザインタフェイスでインタラクティブに操作可能

8
開催概要
•  開催⽇日：2015/03/18〜～2015/03/19（2⽇日間）
–  3/18：午前：Keynote
　　　午後：3 tracks（27 sessions）
-‐‑‒ Developers, Applications, Data Science
–  3/19：Workshop
•  開催場所：The Sheraton, New York
•  開催回数：
–  Spark Summit East としては初開催
–  Spark Summit 2015 がサンフランシスコで2015年年7⽉月開
催予定
•  これまで、Spark Summit 2013、2014がいずれもサンフランシ
スコで

9
会場の雰囲気

10
Silver
Sponsors
Platinum
Gold
データウェアハウス系企業ももちろん多いが、
データサイエンス / データを所持した企業も多い

11
2014年年のSpark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015

12
2014年年のSpark
Matei「データサイエンスの中で今最もアクティブなプロジェクトだ」
Contributors per Month to Spark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015

13
Spark Summit Keynote

14
2015年年の焦点は以下の２つ
•  1. Data Science
–  データフレームをRDDで（2015年年3⽉月リリースのSpark 1.3から）
–  Machine Learning Pipelinesの開発も引き続き
–  R interfaceの充実（2015/6リリースのSpark 1.4でSparkR！）
所感：2015年年度度はデータサイエンス系の⼈人材を引き込もうとしている
•  2. Platform Interfaces Plug in data sources
and algorithms
–  外部のData Soucesインターフェースを充実させる
•  MySQL、Hive、Hbaseとのインターフェース。例例えば、SQLライ
クな⽂文法で呼べるようになる
–  Goalとして、”unified engine across data sources”
New Direction for Spark in 2015（Matei, CTO, Databricks）

15
New Direction for Spark in 2015（Matei, CTO, Databricks）
所感：Sparkがデータソースとそれらを分析するツールを統合化した
　　　コアエンジンになることを⽬目指している

16
Harnessing the Power of Spark with Databricks Cloud
•  Ion Stoica(CEO at databricks)が講演
•  Databricks Cloudのご紹介
–  Databricks社のクラウド型の統合分析プラットフォーム
•  Notebook型のインターフェース
•  Scala, Python, SQL
•  クラウド基盤はAWSで、計算エンジンがSpark + Cluster Manager
→
Notebook型イン
ターフェースで分析
ダッシュボードとし
て共有
分析がジョブと
して実⾏行行される

17
Harnessing the Power of Spark with Databricks Cloud
•  Databricks Cloud プラットフォーム

18
Developers Track
Developers Track の全体概要
•  殆どのスピーカはsparkが「インメモリ型処理理を⾏行行うから早い」と
いうキーワードをセッションの中に盛り込んでいた
•  SQLで操作したいという欲求も多い
–  Hadoopの世界と同じ
–  やはりDB技術者は多い
•  パラメータチューニングに関する話題はほとんど無かった
–  プロダクトの紹介が多い
•  javaは嫌
–  コンパイル⾔言語は⼤大変。。
–  Python、R好きの⼈人から注⽬目を集めている

19
Developers Track
•  Beyond SQL: Spark SQL Abstractions For The Common
Spark Job - Michael Armbrust (Databricks)
–  ジョブの作成コストがHadoopよりも低い
•  コード量量が少ない
–  様々なAPIが⽤用意されているので他のミドルとの連携が⽤用意
•  import側：JSON, Hive, MySQL, HDFS, S3等
•  export側：dBase, cassandram HBASE, elasticsearch, amazonRedshift

20
Developers Track
•  Spark User Concurrency and Context/RDD Sharing
at Production Scale - Farzad Aref (Zoomdata)
–  ビジュアライゼーションツールの１つであるZoomdataの紹介
–  Zoomdataは様々なデータソース（ex. S3, HDFS, RDB）を
扱えるがSparkにも対応している
–  Spark側でジョブを実⾏行行するようにコネクタ（ドライバ）を作
成したので、インメモリでデータを解析する仕組みを
Zoomdata上から活⽤用可能
–  HDFS上のデータならspark経由でデータを扱ったほうが⾼高速で
良良い

21
Developers Track
•  Power Hive with Spark(Hive on Spark) - Chao Sun
(Cloudera), Marcelo Vanzin (Cloudera)
–  HiveはSQLライクな⾔言語でHadoopのジョブを実⾏行行できるインタフェ
イスであり、様々な企業で利利⽤用されているが、map/reduce処理理のた
め⾼高速な処理理は期待できない
–  Hiveの処理理エンジンとしてSparkを利利⽤用する事でレスポンスタイムを
向上できる
–  hiveの機能の⼀一部として開発が進んでいる（HIVE-7292）
•  著名な企業からコントリビュータが参画
–  Hive1.1の機能の⼀一部としてHive on Spark(HoS)
HDFS
Spark
Mesos
Hive
YARN
HoS

22
Data Science Track
Data Science Track の全体概要
•  各ライブラリを使った分析事例例
–  2014年年の前回から事例例が増えている
•  前回は使ってみました系 / 試してみましたが多かった
–  Mlib, Graph X, Spark Streamingなどを使った事例例
–  実際に動いてるデモが多く、使えることをアピールしている
•  コードの実装例例も⾒見見ることができた
•  Sparkによるデータ分析の効率率率化のための検証
–  SparkRの現状報告やR onlyよりどれだけ処理理が早いかなどの検証
–  Deep LearningをするためのGPU演算をSparkで分散実⾏行行
＊講演の様⼦子はYoutubeで公開

23
Spark ML Pipelines
•  データの選択、前処理理、変換の⼀一気通貫した実⾏行行を提供
①Tokenizer：
データの選択/変換しトークン化
②hashingTF：
データの特徴抽出（TF-‐‑‒IDF）
③lr：
（パラメータを変化させながら）モデル
作成
ML Pipelinesの⼀一例例
④Pipelines実⾏行行
①
②
③
④

24
Spark ML Pipelines
•  Practical Machine Learning Pipelines with Mllib
–  Joseph Bradley (Databricks)
–  ML Pipelinesの紹介
•  Spark 1.2以上で使⽤用可能だが、まだ実験的な段階
•  他にも、グリッドサーチによるパラメータ選択・Cross Validationによる
モデル選択なども実装できている
•  今後、データ選択、変換、特徴抽出のアルゴリズムなどをさらに実装して
いくとFuture Plan…だが、Roadmap的にやること⼭山積みのまま、Spark
1.3もリリースした印象
•  データサイエンスの中でユースケースの話しは特になし
–  まだ使える⼿手法が限定されている

25
Spark Mlib
•  実⽤用的な機械学習ライブラリを提供
–  K-means, Logistic regression…など
•  ただし、アルゴリズムによって実装品質が揃ってないので注意
•  Scikit-learn / R に追いつけるか…
–  Scala, Python, Javaで書ける
•  Sparkのバイナリをダウンロードするとソースコードもついてくる
–  数⾏行行程度度で機械学習が回せるのは便便利利
–  ⾃自学習には、Spark Summit 2014のハンズオン資料料が良良い
•  https://databricks-training.s3.amazonaws.com/movie-
recommendation-with-mllib.html

26
Spark Mlib
•  Un-collaborative filtering: Giving the right
recommendations when your users aren’t helping
you
–  Leah McGuire (PhD, Salesforce)
–  協調フィルタリングの実装とその分析事例例
データ分析のスケールがほしい
⼀一からは作りたくない・Mlibが便便利利

27
Spark Streaming
•  ストリームデータ︎のほぼリアルタイム処理理を提供する
–  Scala, Javaのみだったが、Spark 1.3以降降でPythonもサポート
–  多くのストリーミングデータ・ソースをそのまま読み込める
•  Socket, Flume, Kafka, Twitterなど（Fluentdはまだ未実装）
–  Discretized Stream（= ⼀一連のRDD）
•  受けっ取ったストリーミングデータをn秒ごとにRDDに切切り出す
•  あくまでマイクロバッチ（500ms ~ 30s）
•  10msクラスなら
　 Flume / Stormが適切切
–  イベントドリブンには
少し使いづらいかも
•  ずっと演算しているので
CPU / メモリは⾷食う
参考（DMMのビッグデータ分析のご紹介2 　〜～Sparkによるリアルタイムレコメンド
〜～）：https://prezi.com/iz1d_sefm1q9/dmmcom-dmm2-spark/

28
Spark Streaming
•  Streaming machine learning in Spark
–  Jeremy Freeman (HHMI Janelia Research Center)
•  Neuroscientist using computation to understand the brain
–  Mlib＋Spark Streming
•  K-means Streaming, Streaming Linear Regression, Time Series
analysis… など
•  個⼈人的には⼀一番しっかりSparkらしい分析をしていた

29
(紹介) Graph X
•  並列列グラフ計算処理理システム
–  グラフ構造データと表構造データの並列列分散処理理をひとつのシステム
で実装することが可能
•  分散格納されたグラフ構造データは分散環境間で情報の共有が必要で、並
列列分散処理理⾃自体に適さないところを解決している
•  そもそもグラフ解析とは？
–  表構造で扱いづらいデータが増えてきた（SNS, Networkなど）
•  繋がりの抽出
•  軸の抽出
•  距離離の計測
•  影響の計測
•  Graph X Advent Calendar 2014
–  http://www.adventar.org/calendars/491
•  Graph X だけの書籍も

30
Workshop
Data Science Workshop
n  Databricks Cloud 環境の紹介
n  機械学習の各⼿手法の説明
n  Kaggle コンテストデータを使った
Hands On
…さらに、RecSys2015への投稿
■Sparkの内部アーキテクチャの解説
■ジョブ実⾏行行の仕組み解説
■GUIツールの解説
■（メモリ周り中⼼心）パラメータ項⽬目の説明
とおおまかな設定⽅方法解説
■DataBricks Cloudを使⽤用してのSparkジョ
ブの実⾏行行
- データロードの仕⽅方、関数の使い⽅方
- ジョブを実⾏行行してGUI上からジョブを閲覧等
Advance Developer Workshop

31
Workshop
•  Workshopの所感
–  DataBricks Cloud便便利利
•  GUIでサクッとVMをデプロイしたりクローン作成が可能
•  マルチ⾔言語が便便利利（SQLでデータ取ってきて、Pythonで機械学習を実施
みたいなことができた）
•  シェアするのも便便利利
–  （Developers Workshopの）アンケート結果（⾔言語毎の習熟度度）
•  Java、SQL使いが多い
•  Scala、Pythonは初⼼心者
•  Rは知らない
→ 　1⽇日⽬目のキーノートではデータサイエンティストを取り込む流流れを
述べていたが、現時点ではSpark Developersに興味がある⼈人はデータ
サイエンティストでは無い様⼦子
–  Wireless LAN障害で2時間程、何もできず
•  しまいにはホテルの公衆lanを使えという始末

32
Meetup
•  データサイエンス系のMeetupも周辺で多数開催
–  DataDriven（2015/03/17 ）
•  NYCで⽉月１度度開催
•  データにまつわることをなんでも
•  IT企業のCEO,CTOが発表することも多い
•  無料料でbloombergでご飯も
•  講演はYoutubeチャンネルで配信
–  NYC Data Science（2015/03/18）
•  Spark DataFrames and ML Pipelines for Large-Scale Data Science
•  Databricks社のエンジニアも発表した模様
–  PyData NYC（2015/03/20）
•  Python + Data Science
•  ⽇日本でも現在5回⽬目(5/22)。いつも参加登録が殺到
–  http://pydatatokyo.connpass.com/

33
Data Driven NYC #35
•  #35のテーマ
–  Swiftkeyの開発背景（Swiftkey, CTO）
•  キーボードアプリ。⼊入⼒力力ミスを学習し、⾃自動で訂正してくれる。よく使う
⾔言葉葉、⽂文脈に応じた次の⾔言葉葉を予測してくれる
–  時系列列データベースInfluxDB（Paul Dix@InfluxDB, CEO）
•  GO⾔言語、時系列列データベース
•  分析のためのDB
–  Sparkの背景（Ion Stoica@Databricks, CEO）
•  ポイント
–  データを活かすまでの事前作業はとてつもなく⼤大変
•  Swiftkeyの単語数は１兆語！
–  データベースも分析をするために使⽤用されることを前提とした作りが
前提になっている
1.  Datadriven：http://datadrivennyc.com/
2.  Datadriven Youtube：https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ

34
PyData NYC
•  テーマ
–  Project Jupyter for Data Science
–  Matplotlib and the IPython notebook
–  shapeshifting for your data
–  A couple of tips for winning data science competitions
•  ポイント
–  Jupyter（Julia + Python + R）
•  マルチ⾔言語を１つのnotebookインタフェースで分析できるように
–  分析、レジュメ作成、プレゼン、公開まですべてnotebookで
•  データサイエンティストの分析をnotebookに集めようとしている
•  Notebookインタフェースを使ってプレゼンも
1.  PyData：http://datadrivennyc.com/
2.  PyData Youtube：https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ

35
まとめ
•  Sparkとは
–  今データサイエンスの中で今もっともアクティブなプロジェクト
•  Spark Summit概要
–  Hadoopの時と異異なりデータサイエンティストを巻き込もうとしてい
る
•  各トラックとWorkshopの内容
–  ネクストHadoop。メモリに収まりきらないデータの分析でも殆どの
場合でHadoopよりも早い
–  Mlib / SparkStreaming / Graph X / SparkR等の開発・事
例例・検証もまだまだ出てくる
•  その他関連MTG
–  Notebookインターフェースでの分析が今のトレンド
–  R, Python, (Juliaも？）がデータサイエンスの⾔言語の中⼼心

15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

Semelhante a 15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015- (20)

Mais de LINE Corp.

Mais de LINE Corp. (20)

15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-