SlideShare uma empresa Scribd logo
1 de 14
データサイエンスにおける⼀次可視化からの
Spark on Elasticsearchの利⽤
2016/02/08  Hadoop / Spark Conference Japan 2016
NTT コミュニケーションズ 技術開発部 ⼤⽊基⾄
Motoyuki Ooki <m.ooki@ntt.com>
⾃⼰紹介
⼤⽊基⾄
2013年 NTTコミュニケーションズ⼊社
■インターネット品質測定システム
- インターネットにまつわるデータの収集〜分析〜応⽤
-  IETF等の標準化活動
# 参考:Slideshare (http://www.slideshare.net/MotoyukiOhki/140912ia)
■Data Science Lab.の⽴ち上げから展開
- 全社向けのデータ分析基盤の構築、分析、運⽤
-  データサイエンティストの育成
# 参考:データサイエンスラボの取り組み(http://www.bcm.co.jp/site/2015/06/
ntt-com/1506-ntt-com-01.pdf)
事例紹介
n  社内検証NWの (ほぼすべての)データを収集 / 可視化 / 分析
•  新技術の開発検証に使⽤ / ⽣活網の⼀種
ü  部署内200名、他部署数⼗名以上が利⽤
•  全社の検証網であり、NWオペレーションも⽇々発⽣
ü  スモールISPだと考えて頂ければ
n  ⽬的
•  利⽤状況の⾒える化 / 運⽤者の作業効率化 /(もう少し⾼度
な)NWオペレーション⾃動化の⾜がかり
n  取得データ /レコード数(⽇)
•  トラフィック情報(NWフロー・MIB)/ 300K
•  アクセスログ /10M
•  NMS情報(Syslog やNW Metrics)/ 4M
•  無線LAN接続情報(社員の活動量)/ 25K
•  オペレーションログ(チケット情報など)
•  その他(Slack, Gitコミットログ)
3
アーキテクチャと分析フロー
4	
データ蓄積 データ可視化 / 分析
データ発⽣元
ETL処理
うちでよくある話
①Elasticsearch + Kibana でとりあえず⼀次可視化
→ ②ディスカッション → ③統計処理 / 分析
→ ④⼆次可視化 + ダッシュボード化
ストレージ
レポート化
/ ⾒える化
いろいろ問題が…
n  ⼀次可視化のあとが(あたりまえだけど)⼤変
•  Rで分析
ü  ⼤量のデータだと⾟い
ü  ⼀時的なデータが複数存在し、管理が⼤変
•  Elasticsearch のノウハウがチーム内に少なかった
ü  データのETL処理に時間を要した
•  データの蓄積 / ETLの関係上、Elasticsearchにしかデータ
がないものもある。。
•  Kibanaだけだと、集計・統計処理が⾟い
5	
Elasticsearch だけで集計作業はなんとか完結できないか…
⇒ elasticsearch-hadoop がある!
Elasticsearch-Hadoop
n  Elasticsearch for Hadoop
•  Elasticssearchをストレージとして利⽤できるようになる
•  Spark、Hiveも。ライブラリ群をまとめて呼ぶ名称
n  2016/2/4時点で「ES-Hadoop 2.2」が最新
•  Spark 1.6/ Elastcisearch 2.X 系対応
6	
Elas%csearch	for	Hadoop	:	h1ps://www.elas%c.co/products/hadoop
Spark on Elasticsearch ことはじめ1
n  インストール
•  Spark (省略)
•  Elasticsearch(省略)
ü  Elasticsearch側が別ノードなら、network.publish_host等の設
定には注意
•  ES-Hadoop ダウンロード
7	
以上!
Spark on Elasticsearch ことはじめ2
n  動かしてみる(pysparkで)
•  driver-pathを指定するだけ
•  Elasticsearch上のノードとindexとmappingを指定
8
Spark on Elasticsearch ことはじめ3
9	
n  動かしてみる(pysparkで)
•  Map / Reduce
•  Elasticsearch上にsave
Spark on Elasticsearch 性能
n  タスク
•  レコード数 約1000万のNWフローデータ
ü  srcIP, destIP, srcPort, destPort, bps/pps の情報がベース
•  ESクラスタ(マスタノード3台, データノード6台)+ Spark(マスタ
ノード1台にローカル起動)
•  「シャーディング数」と「Sparkのスレッド数」をパラメータ
•  送信先AS を key に トラフィックの量の⽇別統計量算出
10	
・シャーディング数 = Map数のため、シャーディング数
 とスレッド数が同じところがMax。それ以上は伸びない
・シャーディング数が多いほど性能は良くなる?
Spark on Elasticsearch 感想
n  そもそもHDFS使えば…?
•  そのとおり。しかし、Elasticsearchにとりあえず⼊れて可
視化して⾒せれば⼗分なケースがほとんどで…。
n  性能は…?(参考⽂献が⼤変参考になりました)
•  Elasticsearchのシャード数に引きづられる
ü  Map の数 が シャード数に限定
•  ES-Hadoop内で、RESTでESの情報取得処理が⼊る
n  Elasticsearchに⼊れてからデータ直したい(⼊れなおしした
い)ってよく起こりませんか?
•  そういうときに集計して⼊れるって良いかも
11	
参考:Elas%csearch-hadoopをもうちょい調べて遅い理由が少しわかった	
参考:Spark	on	elas%csearch-hadoop	トライアル
まとめ
n  Elasticsearch-hadoopを使うことで、SparkからElasticsearch
のデータをRead / Write
n  所感
•  ESだけで完結したいときや、データサイズが⼤きいときに
•  性能はまだ検証⾜らず
•  あとからの「しっかり解析」するなら、永続化データの貯め
場は作っておかないと…
ü  Elasticsearchに貯め続けると結構不安定。別の⼿段が必要
12
参考
n  Elasticsearch-hadoopをもうちょい調べて遅い理由が少しわかっ
た:http://yamakatu.github.io/blog/2014/04/25/eshadoop/
n  Spark on elasticsearch-hadoop トライアル:
http://qiita.com/jtodo/items/91482501c0c93de49e5e
n  楽しい可視化 : elasticsearchとSpark Streamingの出会い:
http://www.intellilink.co.jp/article/column/bigdata-
kk02.html
n  Apache Spark support:
https://www.elastic.co/guide/en/elasticsearch/hadoop/
current/spark.html
n  Elasticsearch in Apache Spark with Python̶Machine
Learning Series:
https://qbox.io/blog/elasticsearch-in-apache-spark-python
13
Thank you !
Motoyuki Ooki <m.ooki@ntt.com>
14

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
 
What makes Apache Spark?
What makes Apache Spark?What makes Apache Spark?
What makes Apache Spark?
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
 
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析Spark GraphX で始めるグラフ解析
Spark GraphX で始めるグラフ解析
 
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformHadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data Platform
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
 
Watson summit 2016_j2_5
Watson summit 2016_j2_5Watson summit 2016_j2_5
Watson summit 2016_j2_5
 
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 

Destaque

JPN_Elastic Corporate Deck_March2016_Japan_v3
JPN_Elastic Corporate Deck_March2016_Japan_v3JPN_Elastic Corporate Deck_March2016_Japan_v3
JPN_Elastic Corporate Deck_March2016_Japan_v3
Yoshio Fujimatsu
 
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
初心者向けに機械学習のハンズオンセミナーをしてわかったこと初心者向けに機械学習のハンズオンセミナーをしてわかったこと
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
__john_smith__
 

Destaque (6)

JPN_Elastic Corporate Deck_March2016_Japan_v3
JPN_Elastic Corporate Deck_March2016_Japan_v3JPN_Elastic Corporate Deck_March2016_Japan_v3
JPN_Elastic Corporate Deck_March2016_Japan_v3
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
 
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
初心者向けに機械学習のハンズオンセミナーをしてわかったこと初心者向けに機械学習のハンズオンセミナーをしてわかったこと
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
 
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
Elasticsearch and Spark
Elasticsearch and SparkElasticsearch and Spark
Elasticsearch and Spark
 

Semelhante a 16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsearchの利用

Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Yuya Unno
 

Semelhante a 16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsearchの利用 (20)

オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成
 
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
 
20180510_ICON技術セミナー5_田村
20180510_ICON技術セミナー5_田村20180510_ICON技術セミナー5_田村
20180510_ICON技術セミナー5_田村
 
NTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure DataNTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure Data
 
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
 
20150616 ohyama
20150616 ohyama20150616 ohyama
20150616 ohyama
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
Open stack概要とよくある議論
Open stack概要とよくある議論Open stack概要とよくある議論
Open stack概要とよくある議論
 
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウド
 
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
AI/ML開発・運用ワークフロー検討案(日本ソフトウェア科学会 機械学習工学研究会 本番適用のためのインフラと運用WG主催 討論会)
 
ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析
 
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回 「ネットワーク分析の方法+WSシリーズまとめ」
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」 SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回 「ネットワーク分析の方法+WSシリーズまとめ」
 
The real world use of Big Data to change business
The real world use of Big Data to change businessThe real world use of Big Data to change business
The real world use of Big Data to change business
 
これから儲かる技術はデータセンターから(公開用)
これから儲かる技術はデータセンターから(公開用)これから儲かる技術はデータセンターから(公開用)
これから儲かる技術はデータセンターから(公開用)
 
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
Osaka-Meetup-Sep2016
Osaka-Meetup-Sep2016Osaka-Meetup-Sep2016
Osaka-Meetup-Sep2016
 
Interop tokyo2018 openstack-present-and-future
Interop tokyo2018 openstack-present-and-futureInterop tokyo2018 openstack-present-and-future
Interop tokyo2018 openstack-present-and-future
 
空回りのクラウド基盤導入
空回りのクラウド基盤導入空回りのクラウド基盤導入
空回りのクラウド基盤導入
 

Mais de LINE Corp.

14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用
LINE Corp.
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
LINE Corp.
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例
LINE Corp.
 
Rによる決定木解析の一例
Rによる決定木解析の一例Rによる決定木解析の一例
Rによる決定木解析の一例
LINE Corp.
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
LINE Corp.
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説
LINE Corp.
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会
LINE Corp.
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
LINE Corp.
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
LINE Corp.
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
LINE Corp.
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
LINE Corp.
 
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
LINE Corp.
 

Mais de LINE Corp. (20)

18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
 
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
 
17.04.27_JSAI Cup 2017_5th winner's solution
17.04.27_JSAI Cup 2017_5th winner's solution17.04.27_JSAI Cup 2017_5th winner's solution
17.04.27_JSAI Cup 2017_5th winner's solution
 
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
 
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
 
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
17.01.18_論文紹介_Discrimination- and privacy-aware patterns17.01.18_論文紹介_Discrimination- and privacy-aware patterns
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
 
13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標13.03.09_決定ルール解析のための頑健性指標
13.03.09_決定ルール解析のための頑健性指標
 
14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
 
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例
 
Rによる決定木解析の一例
Rによる決定木解析の一例Rによる決定木解析の一例
Rによる決定木解析の一例
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
 
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
 

16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsearchの利用

  • 1. データサイエンスにおける⼀次可視化からの Spark on Elasticsearchの利⽤ 2016/02/08  Hadoop / Spark Conference Japan 2016 NTT コミュニケーションズ 技術開発部 ⼤⽊基⾄ Motoyuki Ooki <m.ooki@ntt.com>
  • 2. ⾃⼰紹介 ⼤⽊基⾄ 2013年 NTTコミュニケーションズ⼊社 ■インターネット品質測定システム - インターネットにまつわるデータの収集〜分析〜応⽤ -  IETF等の標準化活動 # 参考:Slideshare (http://www.slideshare.net/MotoyukiOhki/140912ia) ■Data Science Lab.の⽴ち上げから展開 - 全社向けのデータ分析基盤の構築、分析、運⽤ -  データサイエンティストの育成 # 参考:データサイエンスラボの取り組み(http://www.bcm.co.jp/site/2015/06/ ntt-com/1506-ntt-com-01.pdf)
  • 3. 事例紹介 n  社内検証NWの (ほぼすべての)データを収集 / 可視化 / 分析 •  新技術の開発検証に使⽤ / ⽣活網の⼀種 ü  部署内200名、他部署数⼗名以上が利⽤ •  全社の検証網であり、NWオペレーションも⽇々発⽣ ü  スモールISPだと考えて頂ければ n  ⽬的 •  利⽤状況の⾒える化 / 運⽤者の作業効率化 /(もう少し⾼度 な)NWオペレーション⾃動化の⾜がかり n  取得データ /レコード数(⽇) •  トラフィック情報(NWフロー・MIB)/ 300K •  アクセスログ /10M •  NMS情報(Syslog やNW Metrics)/ 4M •  無線LAN接続情報(社員の活動量)/ 25K •  オペレーションログ(チケット情報など) •  その他(Slack, Gitコミットログ) 3
  • 4. アーキテクチャと分析フロー 4 データ蓄積 データ可視化 / 分析 データ発⽣元 ETL処理 うちでよくある話 ①Elasticsearch + Kibana でとりあえず⼀次可視化 → ②ディスカッション → ③統計処理 / 分析 → ④⼆次可視化 + ダッシュボード化 ストレージ レポート化 / ⾒える化
  • 5. いろいろ問題が… n  ⼀次可視化のあとが(あたりまえだけど)⼤変 •  Rで分析 ü  ⼤量のデータだと⾟い ü  ⼀時的なデータが複数存在し、管理が⼤変 •  Elasticsearch のノウハウがチーム内に少なかった ü  データのETL処理に時間を要した •  データの蓄積 / ETLの関係上、Elasticsearchにしかデータ がないものもある。。 •  Kibanaだけだと、集計・統計処理が⾟い 5 Elasticsearch だけで集計作業はなんとか完結できないか… ⇒ elasticsearch-hadoop がある!
  • 6. Elasticsearch-Hadoop n  Elasticsearch for Hadoop •  Elasticssearchをストレージとして利⽤できるようになる •  Spark、Hiveも。ライブラリ群をまとめて呼ぶ名称 n  2016/2/4時点で「ES-Hadoop 2.2」が最新 •  Spark 1.6/ Elastcisearch 2.X 系対応 6 Elas%csearch for Hadoop : h1ps://www.elas%c.co/products/hadoop
  • 7. Spark on Elasticsearch ことはじめ1 n  インストール •  Spark (省略) •  Elasticsearch(省略) ü  Elasticsearch側が別ノードなら、network.publish_host等の設 定には注意 •  ES-Hadoop ダウンロード 7 以上!
  • 8. Spark on Elasticsearch ことはじめ2 n  動かしてみる(pysparkで) •  driver-pathを指定するだけ •  Elasticsearch上のノードとindexとmappingを指定 8
  • 9. Spark on Elasticsearch ことはじめ3 9 n  動かしてみる(pysparkで) •  Map / Reduce •  Elasticsearch上にsave
  • 10. Spark on Elasticsearch 性能 n  タスク •  レコード数 約1000万のNWフローデータ ü  srcIP, destIP, srcPort, destPort, bps/pps の情報がベース •  ESクラスタ(マスタノード3台, データノード6台)+ Spark(マスタ ノード1台にローカル起動) •  「シャーディング数」と「Sparkのスレッド数」をパラメータ •  送信先AS を key に トラフィックの量の⽇別統計量算出 10 ・シャーディング数 = Map数のため、シャーディング数  とスレッド数が同じところがMax。それ以上は伸びない ・シャーディング数が多いほど性能は良くなる?
  • 11. Spark on Elasticsearch 感想 n  そもそもHDFS使えば…? •  そのとおり。しかし、Elasticsearchにとりあえず⼊れて可 視化して⾒せれば⼗分なケースがほとんどで…。 n  性能は…?(参考⽂献が⼤変参考になりました) •  Elasticsearchのシャード数に引きづられる ü  Map の数 が シャード数に限定 •  ES-Hadoop内で、RESTでESの情報取得処理が⼊る n  Elasticsearchに⼊れてからデータ直したい(⼊れなおしした い)ってよく起こりませんか? •  そういうときに集計して⼊れるって良いかも 11 参考:Elas%csearch-hadoopをもうちょい調べて遅い理由が少しわかった 参考:Spark on elas%csearch-hadoop トライアル
  • 12. まとめ n  Elasticsearch-hadoopを使うことで、SparkからElasticsearch のデータをRead / Write n  所感 •  ESだけで完結したいときや、データサイズが⼤きいときに •  性能はまだ検証⾜らず •  あとからの「しっかり解析」するなら、永続化データの貯め 場は作っておかないと… ü  Elasticsearchに貯め続けると結構不安定。別の⼿段が必要 12
  • 13. 参考 n  Elasticsearch-hadoopをもうちょい調べて遅い理由が少しわかっ た:http://yamakatu.github.io/blog/2014/04/25/eshadoop/ n  Spark on elasticsearch-hadoop トライアル: http://qiita.com/jtodo/items/91482501c0c93de49e5e n  楽しい可視化 : elasticsearchとSpark Streamingの出会い: http://www.intellilink.co.jp/article/column/bigdata- kk02.html n  Apache Spark support: https://www.elastic.co/guide/en/elasticsearch/hadoop/ current/spark.html n  Elasticsearch in Apache Spark with Python̶Machine Learning Series: https://qbox.io/blog/elasticsearch-in-apache-spark-python 13
  • 14. Thank you ! Motoyuki Ooki <m.ooki@ntt.com> 14