SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
ビッグデータ分析基盤Sparkの
最新動向とその活⽤用
-‐‑‒  Spark  SUMMIT  EAST  2015  –
2015年年3⽉月17⽇日〜~18⽇日
⼤大⽊木  基⾄至
ohki@inulab.sys.es.osaka-‐‑‒u.ac.jp
Spark Summit EAST 2015 大木基至	
 2	
01.  Spark  と  カンファレンス概要
Spark  とは?
•  Sparkとは
–  公式サイトでは、
  ⇛Apache  Sparkは⼤大規模データ処理理のための⾼高速で汎⽤用的なエンジン
Spark Summit EAST 2015 大木基至	
 3	
Spark  とは?
•  Sparkとは
–  UC  Berkeleyの研究組織「AMPLab.」で開発されたOSS
–  開発の中⼼心企業は⽶米Databricks社
•  ラボからIon  Stoica⽒氏らがスピンアウトして設⽴立立したベンチャー企業
–  分散クラスタ型のデータ処理理エンジンで、インメモリでビッグデータ
を並列列分散処理理する
–  ビッグデータの分散処理理としてはhadoopが有名であるが、ストレー
ジベースの処理理⽅方式のため、あまり⾼高速ではない
–  対してsparkはデータを⼀一旦メモリにキャッシュし、メモリ上で処理理
を⾏行行うため、繰り返し処理理ではとても⾼高速
Spark Summit EAST 2015 大木基至	
 4	
Spark  とは?
開発履履歴
⽇日付 Ver. 内容
2009年年 - UC Berkleyの研究組織「AMPLab.」にて開発開始
2010年年 - OSS化。その後Apacheソフトウェア財団にコードを寄贈
2012年年10⽉月 0.6.0 スタンドアロンモード、Java APIサポート
2013年年2⽉月 0.7.0 Python APIサポート、ストリーミングサポート
2013年年9⽉月 0.8.0 UIにジョブのダッシュボードが追加、Mlibサポート
2014年年2⽉月 0.9.0 Scala2.10サポート、GraphXサポート
2014年年5⽉月 1.0.0 Spark SQLサポート、Mlibのアルゴリズム充実
2014年年11⽉月 1.1.0 マイナーリリース
2014年年12⽉月 1.2.0 パフォーマンス改善、Spark StreamingのHAサポート
2015年年3⽉月 1.3.0 DataFrames APIサポート
2015年年4⽉月 1.3.1 メンテナンスリリース
Spark Summit EAST 2015 大木基至	
 5	
Spark  とは?
•  Hadoopとの⽐比較ーレイヤスタック図
–  下回りの構成は同じ。
–  MapReduceがSparkに置き換わったイメージ
Spark
HDFS
MapReduce
Spark
SQL
MlibHive Sqoop
YARN Mesos
SparkHadoop
YARN:分散処理理フレームワーク。アプリケーションからのリソース要求のハンドリングやスケジューリングを⾏行行う
Mesos:分散アプリケーション  or フレームワークに対して、効率率率的なリソース分離離、共有を提供するクラスタ管理理ソフト
… …
HDFS
YARN Mesos
Spark Summit EAST 2015 大木基至	
 6	
Spark  とは?
•  Hadoopとの⽐比較ーデータ処理理の流流れ
MapReduceはディスクベースで処理理
各ステージ(処理理の単位)処理理はオンメモリで実⾏行行
M
Spark
Hadoop
R R R
HDFS
処理理
読 読 読書 書 書
S S S
HDFS
処理理
読 読 読書 書 書
Spark Summit EAST 2015 大木基至	
 7	
Spark  とは?
•  Hadoopとの⽐比較
–  共通点
•  ASF(Apache  Software  Foundation)のトップレベルPJ
•  分散ファイルシステム(HDFS)からファイルをロード可能
•  MapReduceプログラミングモデル
•  SQLのインタフェイスや機械学習等のライブラリが充実
–  相違点
•  メモリ上にデータをキャシュして処理理可能
•  Scala,  Pythonのユーザインタフェイスでインタラクティブに操作可能
Spark Summit EAST 2015 大木基至	
 8	
開催概要
•  開催⽇日:2015/03/18〜~2015/03/19(2⽇日間)
–  3/18:午前:Keynote
                午後:3  tracks(27  sessions)
                                                -‐‑‒  Developers,  Applications,  Data  Science
–  3/19:Workshop
•  開催場所:The  Sheraton,  New  York
•  開催回数:
–  Spark  Summit  East  としては初開催
–  Spark  Summit  2015  がサンフランシスコで2015年年7⽉月開
催予定
•  これまで、Spark  Summit  2013、2014がいずれもサンフランシ
スコで
Spark Summit EAST 2015 大木基至	
 9	
会場の雰囲気
Spark Summit EAST 2015 大木基至	
 10	
Silver
Sponsors
Platinum
Gold
データウェアハウス系企業ももちろん多いが、
データサイエンス  /  データを所持した企業も多い
Spark Summit EAST 2015 大木基至	
 11	
2014年年のSpark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
Spark Summit EAST 2015 大木基至	
 12	
2014年年のSpark
Matei「データサイエンスの中で今最もアクティブなプロジェクトだ」
Contributors  per  Month  to  Spark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
Spark Summit EAST 2015 大木基至	
 13	
Spark  Summit  Keynote  
Spark Summit EAST 2015 大木基至	
 14	
2015年年の焦点は以下の2つ
•  1. Data Science
–  データフレームをRDDで(2015年年3⽉月リリースのSpark 1.3から)
–  Machine Learning Pipelinesの開発も引き続き
–  R interfaceの充実(2015/6リリースのSpark 1.4でSparkR!)
所感:2015年年度度はデータサイエンス系の⼈人材を引き込もうとしている
•  2. Platform Interfaces Plug in data sources
and algorithms
–  外部のData Soucesインターフェースを充実させる
•  MySQL、Hive、Hbaseとのインターフェース。例例えば、SQLライ
クな⽂文法で呼べるようになる
–  Goalとして、”unified engine across data sources”
New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks)
Spark Summit EAST 2015 大木基至	
 15	
New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks)
所感:Sparkがデータソースとそれらを分析するツールを統合化した
      コアエンジンになることを⽬目指している
Spark Summit EAST 2015 大木基至	
 16	
Harnessing  the  Power  of  Spark  with  Databricks  Cloud
•  Ion Stoica(CEO at databricks)が講演
•  Databricks Cloudのご紹介
–  Databricks社のクラウド型の統合分析プラットフォーム
•  Notebook型のインターフェース
•  Scala, Python, SQL
•  クラウド基盤はAWSで、計算エンジンがSpark + Cluster Manager
→
Notebook型イン
ターフェースで分析
ダッシュボードとし
て共有
分析がジョブと
して実⾏行行される
Spark Summit EAST 2015 大木基至	
 17	
Harnessing  the  Power  of  Spark  with  Databricks  Cloud
•  Databricks Cloud プラットフォーム
Spark Summit EAST 2015 大木基至	
 18	
Developers  Track  
Developers Track の全体概要
•  殆どのスピーカはsparkが「インメモリ型処理理を⾏行行うから早い」と
いうキーワードをセッションの中に盛り込んでいた
•  SQLで操作したいという欲求も多い
–  Hadoopの世界と同じ
–  やはりDB技術者は多い
•  パラメータチューニングに関する話題はほとんど無かった
–  プロダクトの紹介が多い
•  javaは嫌
–  コンパイル⾔言語は⼤大変。。
–  Python、R好きの⼈人から注⽬目を集めている
Spark Summit EAST 2015 大木基至	
 19	
Developers  Track  
•  Beyond SQL: Spark SQL Abstractions For The Common
Spark Job - Michael Armbrust (Databricks)
–  ジョブの作成コストがHadoopよりも低い
•  コード量量が少ない
–  様々なAPIが⽤用意されているので他のミドルとの連携が⽤用意
•  import側:JSON, Hive, MySQL, HDFS, S3等
•  export側:dBase, cassandram HBASE, elasticsearch, amazonRedshift
Spark Summit EAST 2015 大木基至	
 20	
Developers  Track  
•  Spark User Concurrency and Context/RDD Sharing
at Production Scale - Farzad Aref (Zoomdata)
–  ビジュアライゼーションツールの1つであるZoomdataの紹介
–  Zoomdataは様々なデータソース(ex. S3, HDFS, RDB)を
扱えるがSparkにも対応している
–  Spark側でジョブを実⾏行行するようにコネクタ(ドライバ)を作
成したので、インメモリでデータを解析する仕組みを
Zoomdata上から活⽤用可能
–  HDFS上のデータならspark経由でデータを扱ったほうが⾼高速で
良良い
Spark Summit EAST 2015 大木基至	
 21	
Developers  Track  
•  Power Hive with Spark(Hive on Spark) - Chao Sun
(Cloudera), Marcelo Vanzin (Cloudera)
–  HiveはSQLライクな⾔言語でHadoopのジョブを実⾏行行できるインタフェ
イスであり、様々な企業で利利⽤用されているが、map/reduce処理理のた
め⾼高速な処理理は期待できない
–  Hiveの処理理エンジンとしてSparkを利利⽤用する事でレスポンスタイムを
向上できる
–  hiveの機能の⼀一部として開発が進んでいる(HIVE-7292)
•  著名な企業からコントリビュータが参画
–  Hive1.1の機能の⼀一部としてHive on Spark(HoS)
HDFS
Spark
Mesos
Hive
YARN
HoS
Spark Summit EAST 2015 大木基至	
 22	
Data  Science  Track  
Data Science Track の全体概要
•  各ライブラリを使った分析事例例
–  2014年年の前回から事例例が増えている
•  前回は使ってみました系 / 試してみましたが多かった
–  Mlib, Graph X, Spark Streamingなどを使った事例例
–  実際に動いてるデモが多く、使えることをアピールしている
•  コードの実装例例も⾒見見ることができた
•  Sparkによるデータ分析の効率率率化のための検証
–  SparkRの現状報告やR onlyよりどれだけ処理理が早いかなどの検証
–  Deep LearningをするためのGPU演算をSparkで分散実⾏行行
*  講演の様⼦子はYoutubeで公開
Spark Summit EAST 2015 大木基至	
 23	
Spark  ML  Pipelines
•  データの選択、前処理理、変換の⼀一気通貫した実⾏行行を提供
①Tokenizer:
データの選択/変換しトークン化
②hashingTF:
データの特徴抽出(TF-‐‑‒IDF)
③lr:
(パラメータを変化させながら)モデル
作成
ML  Pipelinesの⼀一例例
④Pipelines実⾏行行
①
②
③
④
Spark Summit EAST 2015 大木基至	
 24	
Spark  ML  Pipelines
•  Practical Machine Learning Pipelines with Mllib
–  Joseph Bradley (Databricks)
–  ML Pipelinesの紹介
•  Spark 1.2以上で使⽤用可能だが、まだ実験的な段階
•  他にも、グリッドサーチによるパラメータ選択・Cross Validationによる
モデル選択なども実装できている
•  今後、データ選択、変換、特徴抽出のアルゴリズムなどをさらに実装して
いくとFuture Plan…だが、Roadmap的にやること⼭山積みのまま、Spark
1.3もリリースした印象
•  データサイエンスの中でユースケースの話しは特になし
–  まだ使える⼿手法が限定されている
Spark Summit EAST 2015 大木基至	
 25	
Spark  Mlib
•  実⽤用的な機械学習ライブラリを提供
–  K-means, Logistic regression…など
•  ただし、アルゴリズムによって実装品質が揃ってないので注意
•  Scikit-learn / R に追いつけるか…
–  Scala, Python, Javaで書ける
•  Sparkのバイナリをダウンロードするとソースコードもついてくる
–  数⾏行行程度度で機械学習が回せるのは便便利利
–  ⾃自学習には、Spark Summit 2014のハンズオン資料料が良良い
•  https://databricks-training.s3.amazonaws.com/movie-
recommendation-with-mllib.html
Spark Summit EAST 2015 大木基至	
 26	
Spark  Mlib
•  Un-collaborative filtering: Giving the right
recommendations when your users aren’t helping
you
–  Leah McGuire (PhD, Salesforce)
–  協調フィルタリングの実装とその分析事例例
データ分析のスケールがほしい
⼀一からは作りたくない・Mlibが便便利利
Spark Summit EAST 2015 大木基至	
 27	
Spark  Streaming
•  ストリームデータ︎のほぼリアルタイム処理理を提供する  
–  Scala, Javaのみだったが、Spark 1.3以降降でPythonもサポート
–  多くのストリーミングデータ・ソースをそのまま読み込める
•  Socket, Flume, Kafka, Twitterなど(Fluentdはまだ未実装)
–  Discretized Stream(= ⼀一連のRDD)
•  受けっ取ったストリーミングデータをn秒ごとにRDDに切切り出す
•  あくまでマイクロバッチ(500ms ~ 30s)
•  10msクラスなら
     Flume / Stormが適切切
–  イベントドリブンには
少し使いづらいかも
•  ずっと演算しているので
CPU / メモリは⾷食う
参考(DMMのビッグデータ分析のご紹介2  〜~Sparkによるリアルタイムレコメンド
〜~):https://prezi.com/iz1d_sefm1q9/dmmcom-dmm2-spark/
Spark Summit EAST 2015 大木基至	
 28	
Spark  Streaming
•  Streaming machine learning in Spark
–  Jeremy Freeman (HHMI Janelia Research Center)
•  Neuroscientist using computation to understand the brain
–  Mlib+Spark Streming
•  K-means Streaming, Streaming Linear Regression, Time Series
analysis… など
•  個⼈人的には⼀一番しっかりSparkらしい分析をしていた
Spark Summit EAST 2015 大木基至	
 29	
(紹介)  Graph  X  
•  並列列グラフ計算処理理システム
–  グラフ構造データと表構造データの並列列分散処理理をひとつのシステム
で実装することが可能
•  分散格納されたグラフ構造データは分散環境間で情報の共有が必要で、並
列列分散処理理⾃自体に適さないところを解決している
•  そもそもグラフ解析とは?
–  表構造で扱いづらいデータが増えてきた(SNS, Networkなど)
•  繋がりの抽出
•  軸の抽出
•  距離離の計測
•  影響の計測
•  Graph X Advent Calendar 2014
–  http://www.adventar.org/calendars/491
•  Graph X だけの書籍も
Spark Summit EAST 2015 大木基至	
 30	
Workshop
Data Science Workshop
n  Databricks  Cloud  環境の紹介
n  機械学習の各⼿手法の説明
n  Kaggle  コンテストデータを使った
Hands  On
…さらに、RecSys2015への投稿
■Sparkの内部アーキテクチャの解説
■ジョブ実⾏行行の仕組み解説
■GUIツールの解説
■(メモリ周り中⼼心)パラメータ項⽬目の説明
とおおまかな設定⽅方法解説
■DataBricks Cloudを使⽤用してのSparkジョ
ブの実⾏行行
- データロードの仕⽅方、関数の使い⽅方
- ジョブを実⾏行行してGUI上からジョブを閲覧等
Advance  Developer  Workshop
Spark Summit EAST 2015 大木基至	
 31	
Workshop
•  Workshopの所感
–  DataBricks Cloud便便利利
•  GUIでサクッとVMをデプロイしたりクローン作成が可能
•  マルチ⾔言語が便便利利(SQLでデータ取ってきて、Pythonで機械学習を実施
みたいなことができた)
•  シェアするのも便便利利
–  (Developers Workshopの)アンケート結果(⾔言語毎の習熟度度)
•  Java、SQL使いが多い
•  Scala、Pythonは初⼼心者
•  Rは知らない
→  1⽇日⽬目のキーノートではデータサイエンティストを取り込む流流れを
述べていたが、現時点ではSpark Developersに興味がある⼈人はデータ
サイエンティストでは無い様⼦子
–  Wireless LAN障害で2時間程、何もできず
•  しまいにはホテルの公衆lanを使えという始末
Spark Summit EAST 2015 大木基至	
 32	
Meetup  
•  データサイエンス系のMeetupも周辺で多数開催
–  DataDriven(2015/03/17 )
•  NYCで⽉月1度度開催
•  データにまつわることをなんでも
•  IT企業のCEO,CTOが発表することも多い
•  無料料でbloombergでご飯も
•  講演はYoutubeチャンネルで配信
–  NYC Data Science(2015/03/18)
•  Spark DataFrames and ML Pipelines for Large-Scale Data Science
•  Databricks社のエンジニアも発表した模様
–  PyData NYC(2015/03/20)
•  Python + Data Science
•  ⽇日本でも現在5回⽬目(5/22)。いつも参加登録が殺到
–  http://pydatatokyo.connpass.com/
Spark Summit EAST 2015 大木基至	
 33	
Data  Driven  NYC  #35
•  #35のテーマ
–  Swiftkeyの開発背景(Swiftkey, CTO)
•  キーボードアプリ。⼊入⼒力力ミスを学習し、⾃自動で訂正してくれる。よく使う
⾔言葉葉、⽂文脈に応じた次の⾔言葉葉を予測してくれる
–  時系列列データベースInfluxDB(Paul Dix@InfluxDB, CEO)
•  GO⾔言語、時系列列データベース
•  分析のためのDB
–  Sparkの背景(Ion Stoica@Databricks, CEO)
•  ポイント
–  データを活かすまでの事前作業はとてつもなく⼤大変
•  Swiftkeyの単語数は1兆語!
–  データベースも分析をするために使⽤用されることを前提とした作りが
前提になっている
1.  Datadriven:http://datadrivennyc.com/
2.  Datadriven Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
Spark Summit EAST 2015 大木基至	
 34	
PyData  NYC
•  テーマ
–  Project Jupyter for Data Science
–  Matplotlib and the IPython notebook
–  shapeshifting for your data
–  A couple of tips for winning data science competitions
•  ポイント
–  Jupyter(Julia + Python + R)
•  マルチ⾔言語を1つのnotebookインタフェースで分析できるように
–  分析、レジュメ作成、プレゼン、公開まですべてnotebookで
•  データサイエンティストの分析をnotebookに集めようとしている
•  Notebookインタフェースを使ってプレゼンも
1.  PyData:http://datadrivennyc.com/
2.  PyData Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
Spark Summit EAST 2015 大木基至	
 35	
まとめ
•  Sparkとは
–  今データサイエンスの中で今もっともアクティブなプロジェクト
•  Spark Summit概要
–  Hadoopの時と異異なりデータサイエンティストを巻き込もうとしてい
る
•  各トラックとWorkshopの内容
–  ネクストHadoop。メモリに収まりきらないデータの分析でも殆どの
場合でHadoopよりも早い
–  Mlib / SparkStreaming / Graph X / SparkR等の開発・事
例例・検証もまだまだ出てくる
•  その他関連MTG
–  Notebookインターフェースでの分析が今のトレンド
–  R, Python, (Juliaも?)がデータサイエンスの⾔言語の中⼼心

Mais conteúdo relacionado

Mais procurados

Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)NTT DATA OSS Professional Services
 
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)NTT DATA OSS Professional Services
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜x1 ichi
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)NTT DATA OSS Professional Services
 
HBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejpHBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejpFwardNetwork
 
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」Kazuki Taniguchi
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~NTT DATA OSS Professional Services
 
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Katsunori Kanda
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)NTT DATA OSS Professional Services
 

Mais procurados (20)

Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
 
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
 
Apache Sparkの紹介
Apache Sparkの紹介Apache Sparkの紹介
Apache Sparkの紹介
 
HBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejpHBaseとSparkでセンサーデータを有効活用 #hbasejp
HBaseとSparkでセンサーデータを有効活用 #hbasejp
 
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
 
Hadoop2.6の最新機能+
Hadoop2.6の最新機能+Hadoop2.6の最新機能+
Hadoop2.6の最新機能+
 
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATAApache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 

Semelhante a 15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてRecruit Technologies
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)NTT DATA Technology & Innovation
 
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streamingビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streamingchibochibo
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningTakuya UESHIN
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポートRyoma Nagata
 
Watson summit 2016_j2_5
Watson summit 2016_j2_5Watson summit 2016_j2_5
Watson summit 2016_j2_5Tanaka Yuichi
 
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!Nagato Kasaki
 
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)Junichi Noda
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~The Japan DataScientist Society
 
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Taro L. Saito
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、DatabricksでもやってみましょうかRyuichi Tokugami
 
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)Junichi Noda
 
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksqlMitsutoshi Kiuchi
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...NTT DATA Technology & Innovation
 
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)NTT DATA Technology & Innovation
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用Sotaro Kimura
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 

Semelhante a 15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015- (20)

Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
 
ビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streamingビッグじゃなくても使えるSpark Streaming
ビッグじゃなくても使えるSpark Streaming
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
Watson summit 2016_j2_5
Watson summit 2016_j2_5Watson summit 2016_j2_5
Watson summit 2016_j2_5
 
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
 
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
 
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
 
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
 
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
 
What makes Apache Spark?
What makes Apache Spark?What makes Apache Spark?
What makes Apache Spark?
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
 
Big datauniversity
Big datauniversityBig datauniversity
Big datauniversity
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 

Mais de LINE Corp.

18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...LINE Corp.
 
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...LINE Corp.
 
17.04.27_JSAI Cup 2017_5th winner's solution
17.04.27_JSAI Cup 2017_5th winner's solution17.04.27_JSAI Cup 2017_5th winner's solution
17.04.27_JSAI Cup 2017_5th winner's solutionLINE Corp.
 
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...LINE Corp.
 
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparisonLINE Corp.
 
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
17.01.18_論文紹介_Discrimination- and privacy-aware patterns17.01.18_論文紹介_Discrimination- and privacy-aware patterns
17.01.18_論文紹介_Discrimination- and privacy-aware patternsLINE Corp.
 
13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標LINE Corp.
 
14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用LINE Corp.
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...LINE Corp.
 
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析LINE Corp.
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例LINE Corp.
 
Rによる決定木解析の一例
Rによる決定木解析の一例Rによる決定木解析の一例
Rによる決定木解析の一例LINE Corp.
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...LINE Corp.
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説LINE Corp.
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会LINE Corp.
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...LINE Corp.
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_LINE Corp.
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析LINE Corp.
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...LINE Corp.
 
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...LINE Corp.
 

Mais de LINE Corp. (20)

18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
 
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
 
17.04.27_JSAI Cup 2017_5th winner's solution
17.04.27_JSAI Cup 2017_5th winner's solution17.04.27_JSAI Cup 2017_5th winner's solution
17.04.27_JSAI Cup 2017_5th winner's solution
 
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
 
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
 
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
17.01.18_論文紹介_Discrimination- and privacy-aware patterns17.01.18_論文紹介_Discrimination- and privacy-aware patterns
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
 
13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標
 
14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
 
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例
 
Rによる決定木解析の一例
Rによる決定木解析の一例Rによる決定木解析の一例
Rによる決定木解析の一例
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
 
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
 

15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

  • 1. ビッグデータ分析基盤Sparkの 最新動向とその活⽤用 -‐‑‒  Spark  SUMMIT  EAST  2015  – 2015年年3⽉月17⽇日〜~18⽇日 ⼤大⽊木  基⾄至 ohki@inulab.sys.es.osaka-‐‑‒u.ac.jp
  • 2. Spark Summit EAST 2015 大木基至 2 01.  Spark  と  カンファレンス概要 Spark  とは? •  Sparkとは –  公式サイトでは、   ⇛Apache  Sparkは⼤大規模データ処理理のための⾼高速で汎⽤用的なエンジン
  • 3. Spark Summit EAST 2015 大木基至 3 Spark  とは? •  Sparkとは –  UC  Berkeleyの研究組織「AMPLab.」で開発されたOSS –  開発の中⼼心企業は⽶米Databricks社 •  ラボからIon  Stoica⽒氏らがスピンアウトして設⽴立立したベンチャー企業 –  分散クラスタ型のデータ処理理エンジンで、インメモリでビッグデータ を並列列分散処理理する –  ビッグデータの分散処理理としてはhadoopが有名であるが、ストレー ジベースの処理理⽅方式のため、あまり⾼高速ではない –  対してsparkはデータを⼀一旦メモリにキャッシュし、メモリ上で処理理 を⾏行行うため、繰り返し処理理ではとても⾼高速
  • 4. Spark Summit EAST 2015 大木基至 4 Spark  とは? 開発履履歴 ⽇日付 Ver. 内容 2009年年 - UC Berkleyの研究組織「AMPLab.」にて開発開始 2010年年 - OSS化。その後Apacheソフトウェア財団にコードを寄贈 2012年年10⽉月 0.6.0 スタンドアロンモード、Java APIサポート 2013年年2⽉月 0.7.0 Python APIサポート、ストリーミングサポート 2013年年9⽉月 0.8.0 UIにジョブのダッシュボードが追加、Mlibサポート 2014年年2⽉月 0.9.0 Scala2.10サポート、GraphXサポート 2014年年5⽉月 1.0.0 Spark SQLサポート、Mlibのアルゴリズム充実 2014年年11⽉月 1.1.0 マイナーリリース 2014年年12⽉月 1.2.0 パフォーマンス改善、Spark StreamingのHAサポート 2015年年3⽉月 1.3.0 DataFrames APIサポート 2015年年4⽉月 1.3.1 メンテナンスリリース
  • 5. Spark Summit EAST 2015 大木基至 5 Spark  とは? •  Hadoopとの⽐比較ーレイヤスタック図 –  下回りの構成は同じ。 –  MapReduceがSparkに置き換わったイメージ Spark HDFS MapReduce Spark SQL MlibHive Sqoop YARN Mesos SparkHadoop YARN:分散処理理フレームワーク。アプリケーションからのリソース要求のハンドリングやスケジューリングを⾏行行う Mesos:分散アプリケーション  or フレームワークに対して、効率率率的なリソース分離離、共有を提供するクラスタ管理理ソフト … … HDFS YARN Mesos
  • 6. Spark Summit EAST 2015 大木基至 6 Spark  とは? •  Hadoopとの⽐比較ーデータ処理理の流流れ MapReduceはディスクベースで処理理 各ステージ(処理理の単位)処理理はオンメモリで実⾏行行 M Spark Hadoop R R R HDFS 処理理 読 読 読書 書 書 S S S HDFS 処理理 読 読 読書 書 書
  • 7. Spark Summit EAST 2015 大木基至 7 Spark  とは? •  Hadoopとの⽐比較 –  共通点 •  ASF(Apache  Software  Foundation)のトップレベルPJ •  分散ファイルシステム(HDFS)からファイルをロード可能 •  MapReduceプログラミングモデル •  SQLのインタフェイスや機械学習等のライブラリが充実 –  相違点 •  メモリ上にデータをキャシュして処理理可能 •  Scala,  Pythonのユーザインタフェイスでインタラクティブに操作可能
  • 8. Spark Summit EAST 2015 大木基至 8 開催概要 •  開催⽇日:2015/03/18〜~2015/03/19(2⽇日間) –  3/18:午前:Keynote                午後:3  tracks(27  sessions)                                                -‐‑‒  Developers,  Applications,  Data  Science –  3/19:Workshop •  開催場所:The  Sheraton,  New  York •  開催回数: –  Spark  Summit  East  としては初開催 –  Spark  Summit  2015  がサンフランシスコで2015年年7⽉月開 催予定 •  これまで、Spark  Summit  2013、2014がいずれもサンフランシ スコで
  • 9. Spark Summit EAST 2015 大木基至 9 会場の雰囲気
  • 10. Spark Summit EAST 2015 大木基至 10 Silver Sponsors Platinum Gold データウェアハウス系企業ももちろん多いが、 データサイエンス  /  データを所持した企業も多い
  • 11. Spark Summit EAST 2015 大木基至 11 2014年年のSpark http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
  • 12. Spark Summit EAST 2015 大木基至 12 2014年年のSpark Matei「データサイエンスの中で今最もアクティブなプロジェクトだ」 Contributors  per  Month  to  Spark http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
  • 13. Spark Summit EAST 2015 大木基至 13 Spark  Summit  Keynote  
  • 14. Spark Summit EAST 2015 大木基至 14 2015年年の焦点は以下の2つ •  1. Data Science –  データフレームをRDDで(2015年年3⽉月リリースのSpark 1.3から) –  Machine Learning Pipelinesの開発も引き続き –  R interfaceの充実(2015/6リリースのSpark 1.4でSparkR!) 所感:2015年年度度はデータサイエンス系の⼈人材を引き込もうとしている •  2. Platform Interfaces Plug in data sources and algorithms –  外部のData Soucesインターフェースを充実させる •  MySQL、Hive、Hbaseとのインターフェース。例例えば、SQLライ クな⽂文法で呼べるようになる –  Goalとして、”unified engine across data sources” New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks)
  • 15. Spark Summit EAST 2015 大木基至 15 New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks) 所感:Sparkがデータソースとそれらを分析するツールを統合化した       コアエンジンになることを⽬目指している
  • 16. Spark Summit EAST 2015 大木基至 16 Harnessing  the  Power  of  Spark  with  Databricks  Cloud •  Ion Stoica(CEO at databricks)が講演 •  Databricks Cloudのご紹介 –  Databricks社のクラウド型の統合分析プラットフォーム •  Notebook型のインターフェース •  Scala, Python, SQL •  クラウド基盤はAWSで、計算エンジンがSpark + Cluster Manager → Notebook型イン ターフェースで分析 ダッシュボードとし て共有 分析がジョブと して実⾏行行される
  • 17. Spark Summit EAST 2015 大木基至 17 Harnessing  the  Power  of  Spark  with  Databricks  Cloud •  Databricks Cloud プラットフォーム
  • 18. Spark Summit EAST 2015 大木基至 18 Developers  Track   Developers Track の全体概要 •  殆どのスピーカはsparkが「インメモリ型処理理を⾏行行うから早い」と いうキーワードをセッションの中に盛り込んでいた •  SQLで操作したいという欲求も多い –  Hadoopの世界と同じ –  やはりDB技術者は多い •  パラメータチューニングに関する話題はほとんど無かった –  プロダクトの紹介が多い •  javaは嫌 –  コンパイル⾔言語は⼤大変。。 –  Python、R好きの⼈人から注⽬目を集めている
  • 19. Spark Summit EAST 2015 大木基至 19 Developers  Track   •  Beyond SQL: Spark SQL Abstractions For The Common Spark Job - Michael Armbrust (Databricks) –  ジョブの作成コストがHadoopよりも低い •  コード量量が少ない –  様々なAPIが⽤用意されているので他のミドルとの連携が⽤用意 •  import側:JSON, Hive, MySQL, HDFS, S3等 •  export側:dBase, cassandram HBASE, elasticsearch, amazonRedshift
  • 20. Spark Summit EAST 2015 大木基至 20 Developers  Track   •  Spark User Concurrency and Context/RDD Sharing at Production Scale - Farzad Aref (Zoomdata) –  ビジュアライゼーションツールの1つであるZoomdataの紹介 –  Zoomdataは様々なデータソース(ex. S3, HDFS, RDB)を 扱えるがSparkにも対応している –  Spark側でジョブを実⾏行行するようにコネクタ(ドライバ)を作 成したので、インメモリでデータを解析する仕組みを Zoomdata上から活⽤用可能 –  HDFS上のデータならspark経由でデータを扱ったほうが⾼高速で 良良い
  • 21. Spark Summit EAST 2015 大木基至 21 Developers  Track   •  Power Hive with Spark(Hive on Spark) - Chao Sun (Cloudera), Marcelo Vanzin (Cloudera) –  HiveはSQLライクな⾔言語でHadoopのジョブを実⾏行行できるインタフェ イスであり、様々な企業で利利⽤用されているが、map/reduce処理理のた め⾼高速な処理理は期待できない –  Hiveの処理理エンジンとしてSparkを利利⽤用する事でレスポンスタイムを 向上できる –  hiveの機能の⼀一部として開発が進んでいる(HIVE-7292) •  著名な企業からコントリビュータが参画 –  Hive1.1の機能の⼀一部としてHive on Spark(HoS) HDFS Spark Mesos Hive YARN HoS
  • 22. Spark Summit EAST 2015 大木基至 22 Data  Science  Track   Data Science Track の全体概要 •  各ライブラリを使った分析事例例 –  2014年年の前回から事例例が増えている •  前回は使ってみました系 / 試してみましたが多かった –  Mlib, Graph X, Spark Streamingなどを使った事例例 –  実際に動いてるデモが多く、使えることをアピールしている •  コードの実装例例も⾒見見ることができた •  Sparkによるデータ分析の効率率率化のための検証 –  SparkRの現状報告やR onlyよりどれだけ処理理が早いかなどの検証 –  Deep LearningをするためのGPU演算をSparkで分散実⾏行行 *  講演の様⼦子はYoutubeで公開
  • 23. Spark Summit EAST 2015 大木基至 23 Spark  ML  Pipelines •  データの選択、前処理理、変換の⼀一気通貫した実⾏行行を提供 ①Tokenizer: データの選択/変換しトークン化 ②hashingTF: データの特徴抽出(TF-‐‑‒IDF) ③lr: (パラメータを変化させながら)モデル 作成 ML  Pipelinesの⼀一例例 ④Pipelines実⾏行行 ① ② ③ ④
  • 24. Spark Summit EAST 2015 大木基至 24 Spark  ML  Pipelines •  Practical Machine Learning Pipelines with Mllib –  Joseph Bradley (Databricks) –  ML Pipelinesの紹介 •  Spark 1.2以上で使⽤用可能だが、まだ実験的な段階 •  他にも、グリッドサーチによるパラメータ選択・Cross Validationによる モデル選択なども実装できている •  今後、データ選択、変換、特徴抽出のアルゴリズムなどをさらに実装して いくとFuture Plan…だが、Roadmap的にやること⼭山積みのまま、Spark 1.3もリリースした印象 •  データサイエンスの中でユースケースの話しは特になし –  まだ使える⼿手法が限定されている
  • 25. Spark Summit EAST 2015 大木基至 25 Spark  Mlib •  実⽤用的な機械学習ライブラリを提供 –  K-means, Logistic regression…など •  ただし、アルゴリズムによって実装品質が揃ってないので注意 •  Scikit-learn / R に追いつけるか… –  Scala, Python, Javaで書ける •  Sparkのバイナリをダウンロードするとソースコードもついてくる –  数⾏行行程度度で機械学習が回せるのは便便利利 –  ⾃自学習には、Spark Summit 2014のハンズオン資料料が良良い •  https://databricks-training.s3.amazonaws.com/movie- recommendation-with-mllib.html
  • 26. Spark Summit EAST 2015 大木基至 26 Spark  Mlib •  Un-collaborative filtering: Giving the right recommendations when your users aren’t helping you –  Leah McGuire (PhD, Salesforce) –  協調フィルタリングの実装とその分析事例例 データ分析のスケールがほしい ⼀一からは作りたくない・Mlibが便便利利
  • 27. Spark Summit EAST 2015 大木基至 27 Spark  Streaming •  ストリームデータ︎のほぼリアルタイム処理理を提供する   –  Scala, Javaのみだったが、Spark 1.3以降降でPythonもサポート –  多くのストリーミングデータ・ソースをそのまま読み込める •  Socket, Flume, Kafka, Twitterなど(Fluentdはまだ未実装) –  Discretized Stream(= ⼀一連のRDD) •  受けっ取ったストリーミングデータをn秒ごとにRDDに切切り出す •  あくまでマイクロバッチ(500ms ~ 30s) •  10msクラスなら      Flume / Stormが適切切 –  イベントドリブンには 少し使いづらいかも •  ずっと演算しているので CPU / メモリは⾷食う 参考(DMMのビッグデータ分析のご紹介2  〜~Sparkによるリアルタイムレコメンド 〜~):https://prezi.com/iz1d_sefm1q9/dmmcom-dmm2-spark/
  • 28. Spark Summit EAST 2015 大木基至 28 Spark  Streaming •  Streaming machine learning in Spark –  Jeremy Freeman (HHMI Janelia Research Center) •  Neuroscientist using computation to understand the brain –  Mlib+Spark Streming •  K-means Streaming, Streaming Linear Regression, Time Series analysis… など •  個⼈人的には⼀一番しっかりSparkらしい分析をしていた
  • 29. Spark Summit EAST 2015 大木基至 29 (紹介)  Graph  X   •  並列列グラフ計算処理理システム –  グラフ構造データと表構造データの並列列分散処理理をひとつのシステム で実装することが可能 •  分散格納されたグラフ構造データは分散環境間で情報の共有が必要で、並 列列分散処理理⾃自体に適さないところを解決している •  そもそもグラフ解析とは? –  表構造で扱いづらいデータが増えてきた(SNS, Networkなど) •  繋がりの抽出 •  軸の抽出 •  距離離の計測 •  影響の計測 •  Graph X Advent Calendar 2014 –  http://www.adventar.org/calendars/491 •  Graph X だけの書籍も
  • 30. Spark Summit EAST 2015 大木基至 30 Workshop Data Science Workshop n  Databricks  Cloud  環境の紹介 n  機械学習の各⼿手法の説明 n  Kaggle  コンテストデータを使った Hands  On …さらに、RecSys2015への投稿 ■Sparkの内部アーキテクチャの解説 ■ジョブ実⾏行行の仕組み解説 ■GUIツールの解説 ■(メモリ周り中⼼心)パラメータ項⽬目の説明 とおおまかな設定⽅方法解説 ■DataBricks Cloudを使⽤用してのSparkジョ ブの実⾏行行 - データロードの仕⽅方、関数の使い⽅方 - ジョブを実⾏行行してGUI上からジョブを閲覧等 Advance  Developer  Workshop
  • 31. Spark Summit EAST 2015 大木基至 31 Workshop •  Workshopの所感 –  DataBricks Cloud便便利利 •  GUIでサクッとVMをデプロイしたりクローン作成が可能 •  マルチ⾔言語が便便利利(SQLでデータ取ってきて、Pythonで機械学習を実施 みたいなことができた) •  シェアするのも便便利利 –  (Developers Workshopの)アンケート結果(⾔言語毎の習熟度度) •  Java、SQL使いが多い •  Scala、Pythonは初⼼心者 •  Rは知らない →  1⽇日⽬目のキーノートではデータサイエンティストを取り込む流流れを 述べていたが、現時点ではSpark Developersに興味がある⼈人はデータ サイエンティストでは無い様⼦子 –  Wireless LAN障害で2時間程、何もできず •  しまいにはホテルの公衆lanを使えという始末
  • 32. Spark Summit EAST 2015 大木基至 32 Meetup   •  データサイエンス系のMeetupも周辺で多数開催 –  DataDriven(2015/03/17 ) •  NYCで⽉月1度度開催 •  データにまつわることをなんでも •  IT企業のCEO,CTOが発表することも多い •  無料料でbloombergでご飯も •  講演はYoutubeチャンネルで配信 –  NYC Data Science(2015/03/18) •  Spark DataFrames and ML Pipelines for Large-Scale Data Science •  Databricks社のエンジニアも発表した模様 –  PyData NYC(2015/03/20) •  Python + Data Science •  ⽇日本でも現在5回⽬目(5/22)。いつも参加登録が殺到 –  http://pydatatokyo.connpass.com/
  • 33. Spark Summit EAST 2015 大木基至 33 Data  Driven  NYC  #35 •  #35のテーマ –  Swiftkeyの開発背景(Swiftkey, CTO) •  キーボードアプリ。⼊入⼒力力ミスを学習し、⾃自動で訂正してくれる。よく使う ⾔言葉葉、⽂文脈に応じた次の⾔言葉葉を予測してくれる –  時系列列データベースInfluxDB(Paul Dix@InfluxDB, CEO) •  GO⾔言語、時系列列データベース •  分析のためのDB –  Sparkの背景(Ion Stoica@Databricks, CEO) •  ポイント –  データを活かすまでの事前作業はとてつもなく⼤大変 •  Swiftkeyの単語数は1兆語! –  データベースも分析をするために使⽤用されることを前提とした作りが 前提になっている 1.  Datadriven:http://datadrivennyc.com/ 2.  Datadriven Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
  • 34. Spark Summit EAST 2015 大木基至 34 PyData  NYC •  テーマ –  Project Jupyter for Data Science –  Matplotlib and the IPython notebook –  shapeshifting for your data –  A couple of tips for winning data science competitions •  ポイント –  Jupyter(Julia + Python + R) •  マルチ⾔言語を1つのnotebookインタフェースで分析できるように –  分析、レジュメ作成、プレゼン、公開まですべてnotebookで •  データサイエンティストの分析をnotebookに集めようとしている •  Notebookインタフェースを使ってプレゼンも 1.  PyData:http://datadrivennyc.com/ 2.  PyData Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
  • 35. Spark Summit EAST 2015 大木基至 35 まとめ •  Sparkとは –  今データサイエンスの中で今もっともアクティブなプロジェクト •  Spark Summit概要 –  Hadoopの時と異異なりデータサイエンティストを巻き込もうとしてい る •  各トラックとWorkshopの内容 –  ネクストHadoop。メモリに収まりきらないデータの分析でも殆どの 場合でHadoopよりも早い –  Mlib / SparkStreaming / Graph X / SparkR等の開発・事 例例・検証もまだまだ出てくる •  その他関連MTG –  Notebookインターフェースでの分析が今のトレンド –  R, Python, (Juliaも?)がデータサイエンスの⾔言語の中⼼心