SlideShare a Scribd company logo
1 of 28
Download to read offline
1© Cloudera, Inc. All rights reserved.
Cloudera Data Science
WorkbenchとPySparkで
好きなPythonライブラリを
分散で使う
Michiaki Ariga, Field Data Scientist
2017/06/27 @Data Engineering and Data
Analysis Workshop #1
2© Cloudera, Inc. All rights reserved.
⾃⼰紹介
• 有賀 康顕 (Twitter/GitHub @chezou)
• Field Data Scientist @Cloudera
• 過去の経歴
• 製造系メーカーでNLP/⾳声対話/機械学習の研究開発
• クックパッドでRailsアプリケーションの傍らレコメンドシステムの開発
• 技術書典2で機械学習の⼊⾨本を頒布
• Rubyコミュニティkawasaki.rbも主催
• rubyist.clubというPodcastもやってます
3© Cloudera, Inc. All rights reserved.
We are hiring!
• サポートメンバー、コンサルタント募集中
4© Cloudera, Inc. All rights reserved.
オープンデータサイエンス
5© Cloudera, Inc. All rights reserved.
https://medium.com/towards-data-science/data-engineer-vs-data-scientist-vs-business-analyst-b68d201364bc#.s6w0i8716
を元に作成
コンピュータ
サイエンス
ドメイン知識統計学
データエンジニア ビジネスアナリスト
データサイエンティスト
6© Cloudera, Inc. All rights reserved.
オープンデータサイエンスの台頭
統計計算とグラフィックのため
の、プログラミング⾔語とソフ
トウェア環境
最も普及している領域: アカデ
ミアと統計コミュニティ
汎⽤の⾼次プログラミング⾔語
最も普及している領域:機械学
習とデータエンジニアリングコ
ミュニティ
強い静的型付けシステムを持つ、
汎⽤の関数プログラミング⾔語
最も普及している領域: Spark
を中⼼としたデータエンジニア
リングコミュニティ
何千ものオープンソースの機械学習、統計、ビジュアライゼーションライブラリが存在
7© Cloudera, Inc. All rights reserved.
オープンデータサイエンスを⽀えるオープンな論⽂
https://medium.com/@karpathy/a-peek-at-trends-in-machine-
learning-ab8a1085a106 より引⽤
機械学習関連の論⽂は
4年で4倍以上に
8© Cloudera, Inc. All rights reserved.
エンタープライズにおける、
スケールするデータサイエンス
9© Cloudera, Inc. All rights reserved.
Apache Spark
⾼速で柔軟な汎⽤データ処理フレームワーク
データ
エンジニアリング
ストリーム処理
データサイエンス
& 機械学習
統⼀されたAPIと⼤規模データのための処理エンジン
10© Cloudera, Inc. All rights reserved.
Clouderaが提供するSpark
がClouderaのSparkを
̶以下を圧倒̶
半数以上
がHadoopの他のコンポーネントと
共にSparkを利⽤Clouderaを選択する最⼤の理由 = サポート、
トレーニング、そしてサービス
57%が⾃社の最も重要なユースケースに向けCloudera Sparkを使⽤。
これに対し他社は、Hortonworks(26%)、Apache ダウンロード(22%)、
Databricks (7%)という状況
回答者の48%が、最も⼀般的な利⽤形態としてSparkとHbaseとの併⽤を、
41%がSparkとKafkaの併⽤を表明
11© Cloudera, Inc. All rights reserved.
Sparkのユースケース
3	out	of	8	are	employing	Spark	in	data	science	research
Sparkの上位ユースケース
がデータサイエンス⽤途でSparkを活⽤
バッチ処理 (ETL)
ストリーム処理
データサイエンス
機械学習
Sparkの上位ユースケースには、バッチ処理(55%)、ストリーム処理
(44%)、データサイエンス(33%)、機械学習(33%)が存在
8⼈中3⼈がSparkをデータサイエンス
調査の⽤途で活⽤
12© Cloudera, Inc. All rights reserved.
チーム データサイエンティストとアナリスト
ゴール データの理解、モデルの開発と改善、知⾒の共有
データ 新規のデータ、かつ頻繁に変更される。⼤抵の場
合サンプリングしたデータが⽤いられる
環境 ローカルマシンかサンドボックスクラスタ
ツール R、Python、SAS/SPSS、SQL、ノートブック、
データラングリング・ディスカバリツール
最終アウトプット レポート、ダッシュボード、PDF、Excel、Word、
PowerPoint
エンタープライズデータサイエンスにおける2つのステージ
探索
(新しい機会の捜索と定量化)
運⽤
(本番システムへのデプロイ)
チーム データエンジニア、開発者、SRE
ゴール アプリケーションのビルドとメンテナンス、改善
データ 既知のデータ、全データ
環境 本番クラスタ
ツール Java/Scala、C++、IDE、CI、ソース管理など
最終アウトプット オンライン・本番アプリケーション
13© Cloudera, Inc. All rights reserved.
運⽤ツール: バージョン管理、スケジューラ、ワークフロー開発ツール: IDE/ノートブック、Python、R、
Scala
典型的なデータサイエンスワークフロー
取得
処理
ガバナンス
データを使った
実験
可視化と
分析
モデル訓練と
テスト
本番データ
パイプライン
バッチ
スコアリング
データ
サービング
オンライン
スコアリング
データエンジニアリング データサイエンス(探索) 本番環境 (運⽤)
14© Cloudera, Inc. All rights reserved.
エンタープライズでのオープンデータサイエンス
データサイエンティスト
探索、実験、イテレーション
インフラエンジニア
事業の加速とコンプライアンスの両⽴
15© Cloudera, Inc. All rights reserved.
それぞれの課題
データサイエンティスト
探索、実験、イテレーション
インフラエンジニア
事業の加速とコンプライアンスの両⽴
Hadoop上で好きなツールが使えない
基盤チームが標準提供するツールは使いたくない
結局⾃分のノートPC上に⼩さいデータをダウンロードし
ないといけない
データサイエンスチームの雑多な要望への
対応が⾟い
セキュリティを保つのが⼤変になる
コンプライアンスを維持しながら本番適⽤するのが⾟い
限定されたモデル
クラウド上の⾃由な環境のメンテナンス負荷
個別に⾼価でハイスペックな環境を購⼊しないといけない
出処不明のデータ
開発/本番環境での実⾏環境のバージョンの差異
⾼価でセキュアでない、サイロ化されたシステム
16© Cloudera, Inc. All rights reserved.
Clouderaのゴール
より多くの
データサイエンティストに
Hadoopの⼒を使ってほしい
Hadoopのデータと計算能⼒に直接
アクセスして、使い慣れたツール
をパワフルに活⽤する
データサイエンティスト
データエンジニア
簡単かつセキュアに
新しいユーザやユースケースを
追加してほしい
セキュアなセルフサービスの分析
ツールを提供し、普及していて⼿
頃な価格の基盤上でより素早く本
番投⼊する
エンタープライズアーキテクト
Hadoop管理者
17© Cloudera, Inc. All rights reserved.
Cloudera
Data Science Workbench
18© Cloudera, Inc. All rights reserved.
Cloudera Data Science Workbench 5つの価値
1つのプラットフォームで複数⾔語(Python, R, Scala)が使える
マルチテナント⽬的に利⽤可能な、リソース分離されたセッション
セキュアなクラスタとの連携が簡単にできる
コードや成果物を共有・再利⽤可能
データサイエンスのワークフローの⾃動化とジョブスケジューリング
19© Cloudera, Inc. All rights reserved.
Cloudera	Data	Science	Workbench(CDSW)によって
エンタープライズのためのセルフサービスデータサイエンス基盤
データサイエンティストは
⾃由を得ることが出来る
インフラエンジニアは
ガバナンスを確保できる
20© Cloudera, Inc. All rights reserved.
データサイエンティストは
• R/Python/Scalaをブラウザから環境構
築なしにすぐに使える
• 好みのライブラリやフレームワーク
をプロジェクトごとに独⽴した環境
にインストール可能
• SparkとImpalaを使いセキュアなク
ラスタのデータを直接触れる
• 知⾒をチームに再利⽤・共同開発可
能な形で共有できる
• データパイプラインの⾃動化と監視
を組み込みのジョブスケジューラで
可能
インフラエンジニアは
• データサイエンティスト⾃⾝が好き
な分析環境を作れる⾃由を与えられ
る
• 複雑な設定なしにKerberosと連携が
でき、セキュリティの確保も容易
• オンプレミスでもクラウドでもどこ
でもデータのある場所で使える
CDSWを使えば…
21© Cloudera, Inc. All rights reserved.
データサイエンスの問題はフルスタック
課題 ソリューション
無制限のデータのサポート Hadoop
アナリストのためのツールの提供 Impala / Hive / Hue
データサイエンティストとデータエンジニアのためのツールの提
供
Spark / Data Science Workbench
リアルタイム処理 Kafka / Spark Streaming
データガバナンスの提供 Cloudera Navigator + パートナー製品
フルスタックのセキュリティ Kerberos / Sentry / Record Service / Navigator Encrypt
クラウド上でのデプロイ Cloudera Director
インフラチームによるシステムの構築・管理 Cloudera Manager + Cloudera Director
22© Cloudera, Inc. All rights reserved.
アーキテクチャ概要
CDSWを稼働させる分散ゲートウェイノードが、Hadoop / Spark 2 に接続している
CDH
Gateway
CDH
Node
CDH
Node
CDH
Node
Cloudera Manager
CDSW
Worker Node
Spark, Impala,
Hive, HDFS, …
CDH
Gateway
CDSW
Master Node
Docker
アプリケーションと
エンジンのポッド
Kubernetes
Cloudera Managerエージェント
CDSWのアプリケーションコンポーネントとユーザワークロード
コンテナ・オーケストレーションサービス
コンテナ・ランタイム
CDHサービスのローカル管理
CDH
Gateway
CDSW
Worker Node
23© Cloudera, Inc. All rights reserved.
Dockerを使えば⾃由が得られるか?
• クラスタ上で好きなライブラリを使うには
• Java/Scala
• ライブラリを Fat JARで配布すれば、必要な依存関係を解決できる
• Python
• virtualenv/venvで仮想環境を作り、実⾏環境でライブラリを導⼊
• 全クラスタで? → デモで解決法をお⾒せします
24© Cloudera, Inc. All rights reserved.
Demo
InstallしていないMeCabをPySparkクラスタ上で実⾏する
25© Cloudera, Inc. All rights reserved.
PySparkで好きなPythonライブラリを使う
CDSW container
Python
w/ MeCab, TF, etc.
1. 必要なライブラリを
conda環境にまとめる
2. YARNがarchiveとして配布 3. 展開した環境を
PYSPARK_PYTHONで指定して実⾏
Master node
Worker node
https://blog.cloudera.co.jp/224ab84570da
https://blog.cloudera.co.jp/33097ac868fb
26© Cloudera, Inc. All rights reserved.
オープンなエコシステムの重要性
オープンエコシステム ブラックボックス
27© Cloudera, Inc. All rights reserved.
CDSWを試すには?
• Cloudera Directorを使ってクラウドで試すのがお⼿軽
• https://github.com/takabow/cdsw-demo-env
• AWS上でCDSWとCDHクラスタが起動するconfig file
• Cloudera Directorって?
• Cloud上へCDHクラスタを簡単にデプロイするためのツール
• CyberZさんのブログに詳しくまとまっています
• http://engineer-blog.cyber-z.co.jp/entry/2016/12/21/090000
28© Cloudera, Inc. All rights reserved.
Thank you!
ariga@cloudera.com

More Related Content

What's hot

分散システムについて語らせてくれ
分散システムについて語らせてくれ分散システムについて語らせてくれ
分散システムについて語らせてくれKumazaki Hiroki
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)NTT DATA Technology & Innovation
 
PostgreSQLでスケールアウト
PostgreSQLでスケールアウトPostgreSQLでスケールアウト
PostgreSQLでスケールアウトMasahiko Sawada
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Yuki Gonda
 
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)NTT DATA Technology & Innovation
 
KubernetesでRedisを使うときの選択肢
KubernetesでRedisを使うときの選択肢KubernetesでRedisを使うときの選択肢
KubernetesでRedisを使うときの選択肢Naoyuki Yamada
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)NTT DATA Technology & Innovation
 
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮Hibino Hisashi
 
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)NTT DATA Technology & Innovation
 
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 

What's hot (20)

Paxos
PaxosPaxos
Paxos
 
分散システムについて語らせてくれ
分散システムについて語らせてくれ分散システムについて語らせてくれ
分散システムについて語らせてくれ
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
 
PostgreSQLでスケールアウト
PostgreSQLでスケールアウトPostgreSQLでスケールアウト
PostgreSQLでスケールアウト
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
 
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
 
Google Cloud Dataflow を理解する - #bq_sushi
Google Cloud Dataflow を理解する - #bq_sushiGoogle Cloud Dataflow を理解する - #bq_sushi
Google Cloud Dataflow を理解する - #bq_sushi
 
KubernetesでRedisを使うときの選択肢
KubernetesでRedisを使うときの選択肢KubernetesでRedisを使うときの選択肢
KubernetesでRedisを使うときの選択肢
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
 
PostgreSQL: XID周回問題に潜む別の問題
PostgreSQL: XID周回問題に潜む別の問題PostgreSQL: XID周回問題に潜む別の問題
PostgreSQL: XID周回問題に潜む別の問題
 
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
 
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
 

Viewers also liked

Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
Spring Cloud in a Nutshell
Spring Cloud in a NutshellSpring Cloud in a Nutshell
Spring Cloud in a NutshellTsuyoshi Miyake
 
Spring Data in a Nutshell
Spring Data in a NutshellSpring Data in a Nutshell
Spring Data in a NutshellTsuyoshi Miyake
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera Japan
 
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)Tsuyoshi Miyake
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計Cloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloudera Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 

Viewers also liked (14)

Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
Spring Cloud in a Nutshell
Spring Cloud in a NutshellSpring Cloud in a Nutshell
Spring Cloud in a Nutshell
 
Spring Data in a Nutshell
Spring Data in a NutshellSpring Data in a Nutshell
Spring Data in a Nutshell
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 

Similar to Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda

Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~The Japan DataScientist Society
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 
OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304Shinichiro Arai
 
ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料Masayuki Hyugaji
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltCloudera Japan
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Cloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Nakakoshi Yuji
 
Azure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfAzure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfYasuhiroHanda2
 
Big Data も Oracle SQL で参照できるって知ってました?
Big Data も Oracle SQL で参照できるって知ってました?Big Data も Oracle SQL で参照できるって知ってました?
Big Data も Oracle SQL で参照できるって知ってました?美佳子 清水
 
serverless openstack 101
serverless openstack 101serverless openstack 101
serverless openstack 101Naoto Gohko
 
祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されましたCore Concept Technologies
 
サーバーレス時代の システム設計ワークショップ
サーバーレス時代の システム設計ワークショップサーバーレス時代の システム設計ワークショップ
サーバーレス時代の システム設計ワークショップMasahiro NAKAYAMA
 
Azure DevOps で始めるスタートダッシュ
Azure DevOps で始めるスタートダッシュAzure DevOps で始めるスタートダッシュ
Azure DevOps で始めるスタートダッシュYasuaki Matsuda
 

Similar to Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda (20)

Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 
OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304
 
ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
 
Azure <3 Openness
Azure <3 OpennessAzure <3 Openness
Azure <3 Openness
 
OSS光と闇
OSS光と闇OSS光と闇
OSS光と闇
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介
 
Azure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfAzure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdf
 
Big Data も Oracle SQL で参照できるって知ってました?
Big Data も Oracle SQL で参照できるって知ってました?Big Data も Oracle SQL で参照できるって知ってました?
Big Data も Oracle SQL で参照できるって知ってました?
 
serverless openstack 101
serverless openstack 101serverless openstack 101
serverless openstack 101
 
祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました
 
サーバーレス時代の システム設計ワークショップ
サーバーレス時代の システム設計ワークショップサーバーレス時代の システム設計ワークショップ
サーバーレス時代の システム設計ワークショップ
 
Azure DevOps で始めるスタートダッシュ
Azure DevOps で始めるスタートダッシュAzure DevOps で始めるスタートダッシュ
Azure DevOps で始めるスタートダッシュ
 

More from Cloudera Japan

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015Cloudera Japan
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015Cloudera Japan
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015Cloudera Japan
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015Cloudera Japan
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015Cloudera Japan
 

More from Cloudera Japan (15)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015
 

Recently uploaded

プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 

Recently uploaded (8)

プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 

Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda

  • 1. 1© Cloudera, Inc. All rights reserved. Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う Michiaki Ariga, Field Data Scientist 2017/06/27 @Data Engineering and Data Analysis Workshop #1
  • 2. 2© Cloudera, Inc. All rights reserved. ⾃⼰紹介 • 有賀 康顕 (Twitter/GitHub @chezou) • Field Data Scientist @Cloudera • 過去の経歴 • 製造系メーカーでNLP/⾳声対話/機械学習の研究開発 • クックパッドでRailsアプリケーションの傍らレコメンドシステムの開発 • 技術書典2で機械学習の⼊⾨本を頒布 • Rubyコミュニティkawasaki.rbも主催 • rubyist.clubというPodcastもやってます
  • 3. 3© Cloudera, Inc. All rights reserved. We are hiring! • サポートメンバー、コンサルタント募集中
  • 4. 4© Cloudera, Inc. All rights reserved. オープンデータサイエンス
  • 5. 5© Cloudera, Inc. All rights reserved. https://medium.com/towards-data-science/data-engineer-vs-data-scientist-vs-business-analyst-b68d201364bc#.s6w0i8716 を元に作成 コンピュータ サイエンス ドメイン知識統計学 データエンジニア ビジネスアナリスト データサイエンティスト
  • 6. 6© Cloudera, Inc. All rights reserved. オープンデータサイエンスの台頭 統計計算とグラフィックのため の、プログラミング⾔語とソフ トウェア環境 最も普及している領域: アカデ ミアと統計コミュニティ 汎⽤の⾼次プログラミング⾔語 最も普及している領域:機械学 習とデータエンジニアリングコ ミュニティ 強い静的型付けシステムを持つ、 汎⽤の関数プログラミング⾔語 最も普及している領域: Spark を中⼼としたデータエンジニア リングコミュニティ 何千ものオープンソースの機械学習、統計、ビジュアライゼーションライブラリが存在
  • 7. 7© Cloudera, Inc. All rights reserved. オープンデータサイエンスを⽀えるオープンな論⽂ https://medium.com/@karpathy/a-peek-at-trends-in-machine- learning-ab8a1085a106 より引⽤ 機械学習関連の論⽂は 4年で4倍以上に
  • 8. 8© Cloudera, Inc. All rights reserved. エンタープライズにおける、 スケールするデータサイエンス
  • 9. 9© Cloudera, Inc. All rights reserved. Apache Spark ⾼速で柔軟な汎⽤データ処理フレームワーク データ エンジニアリング ストリーム処理 データサイエンス & 機械学習 統⼀されたAPIと⼤規模データのための処理エンジン
  • 10. 10© Cloudera, Inc. All rights reserved. Clouderaが提供するSpark がClouderaのSparkを ̶以下を圧倒̶ 半数以上 がHadoopの他のコンポーネントと 共にSparkを利⽤Clouderaを選択する最⼤の理由 = サポート、 トレーニング、そしてサービス 57%が⾃社の最も重要なユースケースに向けCloudera Sparkを使⽤。 これに対し他社は、Hortonworks(26%)、Apache ダウンロード(22%)、 Databricks (7%)という状況 回答者の48%が、最も⼀般的な利⽤形態としてSparkとHbaseとの併⽤を、 41%がSparkとKafkaの併⽤を表明
  • 11. 11© Cloudera, Inc. All rights reserved. Sparkのユースケース 3 out of 8 are employing Spark in data science research Sparkの上位ユースケース がデータサイエンス⽤途でSparkを活⽤ バッチ処理 (ETL) ストリーム処理 データサイエンス 機械学習 Sparkの上位ユースケースには、バッチ処理(55%)、ストリーム処理 (44%)、データサイエンス(33%)、機械学習(33%)が存在 8⼈中3⼈がSparkをデータサイエンス 調査の⽤途で活⽤
  • 12. 12© Cloudera, Inc. All rights reserved. チーム データサイエンティストとアナリスト ゴール データの理解、モデルの開発と改善、知⾒の共有 データ 新規のデータ、かつ頻繁に変更される。⼤抵の場 合サンプリングしたデータが⽤いられる 環境 ローカルマシンかサンドボックスクラスタ ツール R、Python、SAS/SPSS、SQL、ノートブック、 データラングリング・ディスカバリツール 最終アウトプット レポート、ダッシュボード、PDF、Excel、Word、 PowerPoint エンタープライズデータサイエンスにおける2つのステージ 探索 (新しい機会の捜索と定量化) 運⽤ (本番システムへのデプロイ) チーム データエンジニア、開発者、SRE ゴール アプリケーションのビルドとメンテナンス、改善 データ 既知のデータ、全データ 環境 本番クラスタ ツール Java/Scala、C++、IDE、CI、ソース管理など 最終アウトプット オンライン・本番アプリケーション
  • 13. 13© Cloudera, Inc. All rights reserved. 運⽤ツール: バージョン管理、スケジューラ、ワークフロー開発ツール: IDE/ノートブック、Python、R、 Scala 典型的なデータサイエンスワークフロー 取得 処理 ガバナンス データを使った 実験 可視化と 分析 モデル訓練と テスト 本番データ パイプライン バッチ スコアリング データ サービング オンライン スコアリング データエンジニアリング データサイエンス(探索) 本番環境 (運⽤)
  • 14. 14© Cloudera, Inc. All rights reserved. エンタープライズでのオープンデータサイエンス データサイエンティスト 探索、実験、イテレーション インフラエンジニア 事業の加速とコンプライアンスの両⽴
  • 15. 15© Cloudera, Inc. All rights reserved. それぞれの課題 データサイエンティスト 探索、実験、イテレーション インフラエンジニア 事業の加速とコンプライアンスの両⽴ Hadoop上で好きなツールが使えない 基盤チームが標準提供するツールは使いたくない 結局⾃分のノートPC上に⼩さいデータをダウンロードし ないといけない データサイエンスチームの雑多な要望への 対応が⾟い セキュリティを保つのが⼤変になる コンプライアンスを維持しながら本番適⽤するのが⾟い 限定されたモデル クラウド上の⾃由な環境のメンテナンス負荷 個別に⾼価でハイスペックな環境を購⼊しないといけない 出処不明のデータ 開発/本番環境での実⾏環境のバージョンの差異 ⾼価でセキュアでない、サイロ化されたシステム
  • 16. 16© Cloudera, Inc. All rights reserved. Clouderaのゴール より多くの データサイエンティストに Hadoopの⼒を使ってほしい Hadoopのデータと計算能⼒に直接 アクセスして、使い慣れたツール をパワフルに活⽤する データサイエンティスト データエンジニア 簡単かつセキュアに 新しいユーザやユースケースを 追加してほしい セキュアなセルフサービスの分析 ツールを提供し、普及していて⼿ 頃な価格の基盤上でより素早く本 番投⼊する エンタープライズアーキテクト Hadoop管理者
  • 17. 17© Cloudera, Inc. All rights reserved. Cloudera Data Science Workbench
  • 18. 18© Cloudera, Inc. All rights reserved. Cloudera Data Science Workbench 5つの価値 1つのプラットフォームで複数⾔語(Python, R, Scala)が使える マルチテナント⽬的に利⽤可能な、リソース分離されたセッション セキュアなクラスタとの連携が簡単にできる コードや成果物を共有・再利⽤可能 データサイエンスのワークフローの⾃動化とジョブスケジューリング
  • 19. 19© Cloudera, Inc. All rights reserved. Cloudera Data Science Workbench(CDSW)によって エンタープライズのためのセルフサービスデータサイエンス基盤 データサイエンティストは ⾃由を得ることが出来る インフラエンジニアは ガバナンスを確保できる
  • 20. 20© Cloudera, Inc. All rights reserved. データサイエンティストは • R/Python/Scalaをブラウザから環境構 築なしにすぐに使える • 好みのライブラリやフレームワーク をプロジェクトごとに独⽴した環境 にインストール可能 • SparkとImpalaを使いセキュアなク ラスタのデータを直接触れる • 知⾒をチームに再利⽤・共同開発可 能な形で共有できる • データパイプラインの⾃動化と監視 を組み込みのジョブスケジューラで 可能 インフラエンジニアは • データサイエンティスト⾃⾝が好き な分析環境を作れる⾃由を与えられ る • 複雑な設定なしにKerberosと連携が でき、セキュリティの確保も容易 • オンプレミスでもクラウドでもどこ でもデータのある場所で使える CDSWを使えば…
  • 21. 21© Cloudera, Inc. All rights reserved. データサイエンスの問題はフルスタック 課題 ソリューション 無制限のデータのサポート Hadoop アナリストのためのツールの提供 Impala / Hive / Hue データサイエンティストとデータエンジニアのためのツールの提 供 Spark / Data Science Workbench リアルタイム処理 Kafka / Spark Streaming データガバナンスの提供 Cloudera Navigator + パートナー製品 フルスタックのセキュリティ Kerberos / Sentry / Record Service / Navigator Encrypt クラウド上でのデプロイ Cloudera Director インフラチームによるシステムの構築・管理 Cloudera Manager + Cloudera Director
  • 22. 22© Cloudera, Inc. All rights reserved. アーキテクチャ概要 CDSWを稼働させる分散ゲートウェイノードが、Hadoop / Spark 2 に接続している CDH Gateway CDH Node CDH Node CDH Node Cloudera Manager CDSW Worker Node Spark, Impala, Hive, HDFS, … CDH Gateway CDSW Master Node Docker アプリケーションと エンジンのポッド Kubernetes Cloudera Managerエージェント CDSWのアプリケーションコンポーネントとユーザワークロード コンテナ・オーケストレーションサービス コンテナ・ランタイム CDHサービスのローカル管理 CDH Gateway CDSW Worker Node
  • 23. 23© Cloudera, Inc. All rights reserved. Dockerを使えば⾃由が得られるか? • クラスタ上で好きなライブラリを使うには • Java/Scala • ライブラリを Fat JARで配布すれば、必要な依存関係を解決できる • Python • virtualenv/venvで仮想環境を作り、実⾏環境でライブラリを導⼊ • 全クラスタで? → デモで解決法をお⾒せします
  • 24. 24© Cloudera, Inc. All rights reserved. Demo InstallしていないMeCabをPySparkクラスタ上で実⾏する
  • 25. 25© Cloudera, Inc. All rights reserved. PySparkで好きなPythonライブラリを使う CDSW container Python w/ MeCab, TF, etc. 1. 必要なライブラリを conda環境にまとめる 2. YARNがarchiveとして配布 3. 展開した環境を PYSPARK_PYTHONで指定して実⾏ Master node Worker node https://blog.cloudera.co.jp/224ab84570da https://blog.cloudera.co.jp/33097ac868fb
  • 26. 26© Cloudera, Inc. All rights reserved. オープンなエコシステムの重要性 オープンエコシステム ブラックボックス
  • 27. 27© Cloudera, Inc. All rights reserved. CDSWを試すには? • Cloudera Directorを使ってクラウドで試すのがお⼿軽 • https://github.com/takabow/cdsw-demo-env • AWS上でCDSWとCDHクラスタが起動するconfig file • Cloudera Directorって? • Cloud上へCDHクラスタを簡単にデプロイするためのツール • CyberZさんのブログに詳しくまとまっています • http://engineer-blog.cyber-z.co.jp/entry/2016/12/21/090000
  • 28. 28© Cloudera, Inc. All rights reserved. Thank you! ariga@cloudera.com