SlideShare uma empresa Scribd logo
1 de 15
Copyright © 2013 NTT DATA Corporation
2013/06/02
Jubatus Casual Talks #1
NTTデータ 基盤システム事業本部
OSSプロフェッショナルサービス
下垣 徹
世界征服を目指す Jubatus だからこそ
期待する 5 つのポイント
2Copyright © 2013 NTT DATA Corporation
 下垣 徹 (しもがき とおる / @shimtoru)
 株式会社NTTデータ 基盤システム事業本部
 RDBMSスペシャリスト
 OSSのデータベース「PostgreSQL」使い
 ミッションクリティカルなOracleのシステムを
PostgreSQLへ移行する案件を手掛ける
 Oracleの高速データロードツールSQL*Loaderの
PostgreSQL版を開発
 ここ数年はHadoopに従事
 巨大なデータをどう取り扱うかに取り組む
 2011/01/28発売の「Hadoop徹底入門」
でとりまとめを担当
 第4刷を発売中
 もうすぐ第二版を発売予定
自己紹介
3Copyright © 2013 NTT DATA Corporation
 安定したシステムを提供するためには
そのミドルウェアをコントロール可能であること
コントロール可能であるためには、状態を正しく把握できること
 システムを提供する立場からすると「多種多様であること」は
必ずしも好ましいとは言えない
言うなれば 「多種 単 様」 であることが望ましい
あれもこれも見ないといけない & 見るためのスキルが必要
結果としてメンテナンスコストが膨らむ
今日の立ち位置:システムを提供する側として
4Copyright © 2013 NTT DATA Corporation
 静的なシステム・アーキテクチャ
付加しなければならない機能を作り込みやすい
フレームワークとして使いやすい、分かり易い
インストールしやすい
メンテナンスしやすい
 動的なシステム・アーキテクチャ
性能、サイジング
障害の検知、復旧する
 アプリケーション開発
機会学習のフレームワークとして必要なもの .. こと足りてる?
機能を開発、実装、検証する際に必要な、道具立てが揃っている
今日の立ち位置:システムを提供する側として
5Copyright © 2013 NTT DATA Corporation
 比較的安心して使えるのは Classifier・Recommender あとは Anomaly
Jubatus の各機能の実装状況 (2013年5月時点)
No 機能名 実装状況
1 Classifier ◯ 最も安定した学習結果を得られる。
△ 学習の際のハイパーパラメータの調整機能が不足
2 Recommender
◯ 比較的安定した学習結果を得られる。
△ 類似度の計算方式を調整できない。
△ 並列処理時の有難味が薄い。
3 Regression △ 学習時の収束性に問題がある
4 Stat △ 基本的な統計処理が可能だが、統計処理の対象範囲指
定ができないため使い所が難しい
5 Graph
△ 最短経路の探索機能に制限があり(landmarkの柔軟な
指定ができない)、出力される内容も正確でない場合がある。
△ 重み付きグラフ・有向グラフへに非対応
6 Anomaly
◯ 機能的には比較的使いやすい
△ パラメータの調整が難しすぎる
△ 自動的に「忘れる」機能が欲しい
6Copyright © 2013 NTT DATA Corporation
1. モデルの取得
2. 障害に対する配慮
3. ミドルウェアとしての構成をシンプルに
4. mixが効果的に動いてほしい
5. Jubatus の動作モデルのあり方について
世界征服を目指す Jubatus
だからこそ期待する5つのポイント
7Copyright © 2013 NTT DATA Corporation
 現状の Jubatus ではモデルを取得することができないため、Jubatus
内部での学習状況を把握できない
 自社では Classifier について Jubatus の save の出力を参考に、モ
デル(特徴ベクトル) を取得する機能を自作して活用中
 「Rだと普通に使える機能」を提供してほしい
 @kumagi さんによると、すでに実装し終えているとか...??
1. モデルが取得できない
8Copyright © 2013 NTT DATA Corporation
 現状の Jubatus は、障害に対する配慮が十分とはいえない
 そもそも、どういう障害が起こりえて、どこを観測していればどのような
障害が発生していることを確認できるのだろうか?
例:この2つのエラーメッセージ、状態の違いって何...?
- msgpackrpc.error.TimeoutError: Request timed out
- msgpackrpc.error.RPCError: request timed out
 まずは「事象を把握できること」を地道に作りこんでほしい
 エラーメッセージから問題が識別できる
 問題が識別できるようにエラーメッセージを出す
2. 障害に対する配慮
9Copyright © 2013 NTT DATA Corporation
 現状の Jubatus は実験的に作ってみた要素が強い
1. パッケージの依存関係が多すぎる
インストールが面倒くさい
- devパッケージ・rpmパッケージともに用意されたので昔ほど煩雑ではない
- ネットワークに繋がっている環境でインストールする分にはかまわないが...
依存パッケージのバージョンにもかなり引きずられる
- Jubatus のバージョンアップのたびに周辺パッケージもアップデート
いざ運用に入ったときにこれだけのパッケージの面倒をみるの...?
- pficommon と MessagePack は特に強結合
3. ミドルウェアとしての構成が複雑
10Copyright © 2013 NTT DATA Corporation
2. 実装言語も多すぎる
Jubatus は C++ で実装されているが、そのコードの一部を自動生成
するためにIDLが用意されている
- mpidl : 各種ヘッダファイルの作成 → Haskel
- jenerator : impl や keeper の作成 → OCaml
本当に言語を分ける必要があるのか...
3. ミドルウェアとしての構成が複雑
11Copyright © 2013 NTT DATA Corporation
 Jubatus の Classifier は mix によって重みベクトル(モデルの
実体)を平均化している
 しかし、この操作の意味は少なくとも自明に了解できる類のも
のではない
例えば、以下の二つの状況を考える。
1. データを 2 プロセスに振り分けて学習し、結果を平均化する
2. データを 1/2 に間引き、1 プロセスで学習する
このどちらが「正しい」のかの判断には慎重な検討を要し、ある程度以
上のデータ量を前提とすれば、直感的には、むしろ後者の方が統計的
に正しい結果を得られるようにも思われる。
 mix を効果的に使うための構成やチューニング方法といった情
報の提供も望まれる
4. mixが効果的に動いてほしい
12Copyright © 2013 NTT DATA Corporation
(参考) mix の動作検証
mixなし mix間隔512
mix間隔64 mix間隔8
1プロセス
8プロセス
mixあり/mixなしで収束速度はほぼ同じ ※グラフの横軸
は投入件数、縦
軸は正答率(25
件ごとの移動平
均)
<評価について>
・1 プロセスの場
合、評価を 8 回
に 1 回とした
・評価は特定の
1 プロセスについ
てのみ実施した
(8 プロセスの場
合はそのうちの
1 プロセス)
mix間隔を狭めるにつれむしろ正答率の立ち上がりが鈍化
・mix が効果を発揮できているのかを調査
・Classifier に対し、20 Newsgroups の場
合の記事を 1 件ずつ評価・学習の順で投
入し、評価結果が正解か不正解かを出力
13Copyright © 2013 NTT DATA Corporation
 機械学習の特性と並列処理の有効活用について
 Jubatus は最初に実装された Classifier に適した動作モデルになっているが、全
モデルで共通の構成で良いのか?
 レコード群を各プロセスで分割して保持し、評価を並列実行するようにすれば高速
化可能なはず → Recommender に限らず機械学習モデルごとに並列度を活かせ
るような動作モデルをとる必要があるのでは?
5. Jubatus の動作モデルのあり方について
Classifier Recommender
学習 遅い 速い
評価 速い 遅い
Classifier の場合、相対的に処理速度が
遅くなる学習フェーズの部分を並列化す
ることで高速化を図っている
Recommender の場合、並列度を上げても評価に
かかる時間は一定(Jubatus ではモデルを全プロセ
スで共通化するため)
→ 並列化してもプロセスのプールができるだけで
あり、高速化は期待できず、有り難みが少ない
14Copyright © 2013 NTT DATA Corporation
 Jubatus は開発チームが非常にアクティブ
 バグを指摘すると素早く修正してくれる
 これからが正念場のプロダクト
 Jubatusの発展を応援しています!
 一緒にPOCをやってみたいという方は遠慮なくご連絡を!
最後に
Copyright © 2011 NTT DATA Corporation
Copyright © 2013 NTT DATA Corporation
お問い合わせ先:
株式会社NTTデータ 基盤システム事業本部
OSSプロフェッショナルサービス
URL: http://oss.nttdata.co.jp/hadoop
メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496

Mais conteúdo relacionado

Mais procurados

クラウドを最大限活用するinfrastructure as codeを考えよう
クラウドを最大限活用するinfrastructure as codeを考えようクラウドを最大限活用するinfrastructure as codeを考えよう
クラウドを最大限活用するinfrastructure as codeを考えようNTT Communications Technology Development
 
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
PFN 深層学習事例紹介、PFN/MSアライアンス テクノロジーアップデート
PFN 深層学習事例紹介、PFN/MSアライアンス テクノロジーアップデートPFN 深層学習事例紹介、PFN/MSアライアンス テクノロジーアップデート
PFN 深層学習事例紹介、PFN/MSアライアンス テクノロジーアップデートHirono Jumpei
 
ひと漕ぎで二度おいしい!? Flutterを使ったモバイルアプリ開発への期待と実態と付き合い方(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ひと漕ぎで二度おいしい!? Flutterを使ったモバイルアプリ開発への期待と実態と付き合い方(NTTデータ テクノロジーカンファレンス 2020 発表資料)ひと漕ぎで二度おいしい!? Flutterを使ったモバイルアプリ開発への期待と実態と付き合い方(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ひと漕ぎで二度おいしい!? Flutterを使ったモバイルアプリ開発への期待と実態と付き合い方(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)NTT DATA Technology & Innovation
 
新しいTERASOLUNA Batch Frameworkとは
新しいTERASOLUNA Batch Frameworkとは新しいTERASOLUNA Batch Frameworkとは
新しいTERASOLUNA Batch Frameworkとはapkiban
 
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployするDeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployするtomohiro kato
 
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)NTT DATA Technology & Innovation
 
バッチは地味だが役に立つ
バッチは地味だが役に立つバッチは地味だが役に立つ
バッチは地味だが役に立つapkiban
 
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢apkiban
 
「量子コンピュータ」は今のコンピュータに取って代わってしまうのか? ~現状のアプリケーションから将来像を考える~(NTTデータ テクノロジーカンファレンス...
「量子コンピュータ」は今のコンピュータに取って代わってしまうのか? ~現状のアプリケーションから将来像を考える~(NTTデータ テクノロジーカンファレンス...「量子コンピュータ」は今のコンピュータに取って代わってしまうのか? ~現状のアプリケーションから将来像を考える~(NTTデータ テクノロジーカンファレンス...
「量子コンピュータ」は今のコンピュータに取って代わってしまうのか? ~現状のアプリケーションから将来像を考える~(NTTデータ テクノロジーカンファレンス...NTT DATA Technology & Innovation
 
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説LeapMind Inc
 
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 TokyoSoftware for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 TokyoShohei Hido
 
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 apkiban
 
PuppetConf2015参加レポート (第1回 Puppetユーザ会 発表資料)
PuppetConf2015参加レポート (第1回 Puppetユーザ会 発表資料)PuppetConf2015参加レポート (第1回 Puppetユーザ会 発表資料)
PuppetConf2015参加レポート (第1回 Puppetユーザ会 発表資料)NTT DATA OSS Professional Services
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用Preferred Networks
 

Mais procurados (20)

クラウドを最大限活用するinfrastructure as codeを考えよう
クラウドを最大限活用するinfrastructure as codeを考えようクラウドを最大限活用するinfrastructure as codeを考えよう
クラウドを最大限活用するinfrastructure as codeを考えよう
 
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
PFN 深層学習事例紹介、PFN/MSアライアンス テクノロジーアップデート
PFN 深層学習事例紹介、PFN/MSアライアンス テクノロジーアップデートPFN 深層学習事例紹介、PFN/MSアライアンス テクノロジーアップデート
PFN 深層学習事例紹介、PFN/MSアライアンス テクノロジーアップデート
 
ひと漕ぎで二度おいしい!? Flutterを使ったモバイルアプリ開発への期待と実態と付き合い方(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ひと漕ぎで二度おいしい!? Flutterを使ったモバイルアプリ開発への期待と実態と付き合い方(NTTデータ テクノロジーカンファレンス 2020 発表資料)ひと漕ぎで二度おいしい!? Flutterを使ったモバイルアプリ開発への期待と実態と付き合い方(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ひと漕ぎで二度おいしい!? Flutterを使ったモバイルアプリ開発への期待と実態と付き合い方(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
 
新しいTERASOLUNA Batch Frameworkとは
新しいTERASOLUNA Batch Frameworkとは新しいTERASOLUNA Batch Frameworkとは
新しいTERASOLUNA Batch Frameworkとは
 
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployするDeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
 
分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)
 
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
 
【最新版誘導用】sakura.io handson
【最新版誘導用】sakura.io handson【最新版誘導用】sakura.io handson
【最新版誘導用】sakura.io handson
 
バッチは地味だが役に立つ
バッチは地味だが役に立つバッチは地味だが役に立つ
バッチは地味だが役に立つ
 
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
 
「量子コンピュータ」は今のコンピュータに取って代わってしまうのか? ~現状のアプリケーションから将来像を考える~(NTTデータ テクノロジーカンファレンス...
「量子コンピュータ」は今のコンピュータに取って代わってしまうのか? ~現状のアプリケーションから将来像を考える~(NTTデータ テクノロジーカンファレンス...「量子コンピュータ」は今のコンピュータに取って代わってしまうのか? ~現状のアプリケーションから将来像を考える~(NTTデータ テクノロジーカンファレンス...
「量子コンピュータ」は今のコンピュータに取って代わってしまうのか? ~現状のアプリケーションから将来像を考える~(NTTデータ テクノロジーカンファレンス...
 
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
 
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 TokyoSoftware for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
 
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」
 
PuppetConf2015参加レポート (第1回 Puppetユーザ会 発表資料)
PuppetConf2015参加レポート (第1回 Puppetユーザ会 発表資料)PuppetConf2015参加レポート (第1回 Puppetユーザ会 発表資料)
PuppetConf2015参加レポート (第1回 Puppetユーザ会 発表資料)
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用
 

Destaque

数式を使わないJubatus入門
数式を使わないJubatus入門数式を使わないJubatus入門
数式を使わないJubatus入門Kenji Aiko
 
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみたJubatusOfficial
 
jubarecommenderの紹介
jubarecommenderの紹介jubarecommenderの紹介
jubarecommenderの紹介JubatusOfficial
 
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する新聞から今年の漢字を予測する
新聞から今年の漢字を予測するJubatusOfficial
 
単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)JubatusOfficial
 
Jubatus 新機能ハイライト
Jubatus 新機能ハイライトJubatus 新機能ハイライト
Jubatus 新機能ハイライトJubatusOfficial
 
かまってちゃん小町
かまってちゃん小町かまってちゃん小町
かまってちゃん小町JubatusOfficial
 
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用JubatusOfficial
 
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化JubatusOfficial
 
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定JubatusOfficial
 
Jubakit の紹介
Jubakit の紹介Jubakit の紹介
Jubakit の紹介kmaehashi
 
発言小町からのプロファイリング
発言小町からのプロファイリング発言小町からのプロファイリング
発言小町からのプロファイリングJubatusOfficial
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Shohei Hido
 

Destaque (20)

数式を使わないJubatus入門
数式を使わないJubatus入門数式を使わないJubatus入門
数式を使わないJubatus入門
 
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
 
jubarecommenderの紹介
jubarecommenderの紹介jubarecommenderの紹介
jubarecommenderの紹介
 
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
 
単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)
 
JubaQLご紹介
JubaQLご紹介JubaQLご紹介
JubaQLご紹介
 
jubabanditの紹介
jubabanditの紹介jubabanditの紹介
jubabanditの紹介
 
Jubatus 新機能ハイライト
Jubatus 新機能ハイライトJubatus 新機能ハイライト
Jubatus 新機能ハイライト
 
かまってちゃん小町
かまってちゃん小町かまってちゃん小町
かまってちゃん小町
 
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
 
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
 
Jubaanomalyについて
JubaanomalyについてJubaanomalyについて
Jubaanomalyについて
 
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
 
Jubakit の紹介
Jubakit の紹介Jubakit の紹介
Jubakit の紹介
 
発言小町からのプロファイリング
発言小町からのプロファイリング発言小町からのプロファイリング
発言小町からのプロファイリング
 
銀座のママ
銀座のママ銀座のママ
銀座のママ
 
JUBARHYME
JUBARHYMEJUBARHYME
JUBARHYME
 
小町の溜息
小町の溜息小町の溜息
小町の溜息
 
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 

Semelhante a 世界征服を目指すJubatusだからこそ期待する5つのポイント

世界征服を目指す Jubatus だからこそ期待する 5 つのポイント
世界征服を目指す Jubatus だからこそ期待する 5 つのポイント世界征服を目指す Jubatus だからこそ期待する 5 つのポイント
世界征服を目指す Jubatus だからこそ期待する 5 つのポイントToru Shimogaki
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】NTT DATA OSS Professional Services
 
PostgreSQL9.1でつくる高可用性にまつわるエトセトラ
PostgreSQL9.1でつくる高可用性にまつわるエトセトラPostgreSQL9.1でつくる高可用性にまつわるエトセトラ
PostgreSQL9.1でつくる高可用性にまつわるエトセトラNTT DATA OSS Professional Services
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)NTT DATA OSS Professional Services
 
Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)CLOUDIAN KK
 
Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)CLOUDIAN KK
 
Rubyによるお手軽分散処理
Rubyによるお手軽分散処理Rubyによるお手軽分散処理
Rubyによるお手軽分散処理maebashi
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
仮想化技術の基本の基本
仮想化技術の基本の基本仮想化技術の基本の基本
仮想化技術の基本の基本terada
 
20130203 OSS-DB Exam Silver 技術解説無料セミナー
20130203 OSS-DB Exam Silver 技術解説無料セミナー20130203 OSS-DB Exam Silver 技術解説無料セミナー
20130203 OSS-DB Exam Silver 技術解説無料セミナーKazuko Itoda
 
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)NTT DATA OSS Professional Services
 
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦Insight Technology, Inc.
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...NTT DATA Technology & Innovation
 
[db tech showcase Tokyo 2015] C25:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの整合...
[db tech showcase Tokyo 2015] C25:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの整合...[db tech showcase Tokyo 2015] C25:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの整合...
[db tech showcase Tokyo 2015] C25:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの整合...Insight Technology, Inc.
 

Semelhante a 世界征服を目指すJubatusだからこそ期待する5つのポイント (20)

世界征服を目指す Jubatus だからこそ期待する 5 つのポイント
世界征服を目指す Jubatus だからこそ期待する 5 つのポイント世界征服を目指す Jubatus だからこそ期待する 5 つのポイント
世界征服を目指す Jubatus だからこそ期待する 5 つのポイント
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
10大ニュースで振り返るpg con2013
10大ニュースで振り返るpg con201310大ニュースで振り返るpg con2013
10大ニュースで振り返るpg con2013
 
PostgreSQL9.1でつくる高可用性にまつわるエトセトラ
PostgreSQL9.1でつくる高可用性にまつわるエトセトラPostgreSQL9.1でつくる高可用性にまつわるエトセトラ
PostgreSQL9.1でつくる高可用性にまつわるエトセトラ
 
NTT DATA と PostgreSQL が挑んだ総力戦
NTT DATA と PostgreSQL が挑んだ総力戦NTT DATA と PostgreSQL が挑んだ総力戦
NTT DATA と PostgreSQL が挑んだ総力戦
 
July techfesta2014 f30
July techfesta2014 f30July techfesta2014 f30
July techfesta2014 f30
 
PostgreSQL9.3新機能紹介
PostgreSQL9.3新機能紹介PostgreSQL9.3新機能紹介
PostgreSQL9.3新機能紹介
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
 
Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)
 
Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)
 
Rubyによるお手軽分散処理
Rubyによるお手軽分散処理Rubyによるお手軽分散処理
Rubyによるお手軽分散処理
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
仮想化技術の基本の基本
仮想化技術の基本の基本仮想化技術の基本の基本
仮想化技術の基本の基本
 
20130203 oss-db-lpi
20130203 oss-db-lpi20130203 oss-db-lpi
20130203 oss-db-lpi
 
20130203 OSS-DB Exam Silver 技術解説無料セミナー
20130203 OSS-DB Exam Silver 技術解説無料セミナー20130203 OSS-DB Exam Silver 技術解説無料セミナー
20130203 OSS-DB Exam Silver 技術解説無料セミナー
 
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
 
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
[db tech showcase Tokyo 2015] C25:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの整合...
[db tech showcase Tokyo 2015] C25:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの整合...[db tech showcase Tokyo 2015] C25:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの整合...
[db tech showcase Tokyo 2015] C25:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの整合...
 

Mais de NTT DATA OSS Professional Services

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~NTT DATA OSS Professional Services
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのことNTT DATA OSS Professional Services
 

Mais de NTT DATA OSS Professional Services (20)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Structured Streaming - The Internal -
Structured Streaming - The Internal -Structured Streaming - The Internal -
Structured Streaming - The Internal -
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
 

Último

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Último (9)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

世界征服を目指すJubatusだからこそ期待する5つのポイント

  • 1. Copyright © 2013 NTT DATA Corporation 2013/06/02 Jubatus Casual Talks #1 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 下垣 徹 世界征服を目指す Jubatus だからこそ 期待する 5 つのポイント
  • 2. 2Copyright © 2013 NTT DATA Corporation  下垣 徹 (しもがき とおる / @shimtoru)  株式会社NTTデータ 基盤システム事業本部  RDBMSスペシャリスト  OSSのデータベース「PostgreSQL」使い  ミッションクリティカルなOracleのシステムを PostgreSQLへ移行する案件を手掛ける  Oracleの高速データロードツールSQL*Loaderの PostgreSQL版を開発  ここ数年はHadoopに従事  巨大なデータをどう取り扱うかに取り組む  2011/01/28発売の「Hadoop徹底入門」 でとりまとめを担当  第4刷を発売中  もうすぐ第二版を発売予定 自己紹介
  • 3. 3Copyright © 2013 NTT DATA Corporation  安定したシステムを提供するためには そのミドルウェアをコントロール可能であること コントロール可能であるためには、状態を正しく把握できること  システムを提供する立場からすると「多種多様であること」は 必ずしも好ましいとは言えない 言うなれば 「多種 単 様」 であることが望ましい あれもこれも見ないといけない & 見るためのスキルが必要 結果としてメンテナンスコストが膨らむ 今日の立ち位置:システムを提供する側として
  • 4. 4Copyright © 2013 NTT DATA Corporation  静的なシステム・アーキテクチャ 付加しなければならない機能を作り込みやすい フレームワークとして使いやすい、分かり易い インストールしやすい メンテナンスしやすい  動的なシステム・アーキテクチャ 性能、サイジング 障害の検知、復旧する  アプリケーション開発 機会学習のフレームワークとして必要なもの .. こと足りてる? 機能を開発、実装、検証する際に必要な、道具立てが揃っている 今日の立ち位置:システムを提供する側として
  • 5. 5Copyright © 2013 NTT DATA Corporation  比較的安心して使えるのは Classifier・Recommender あとは Anomaly Jubatus の各機能の実装状況 (2013年5月時点) No 機能名 実装状況 1 Classifier ◯ 最も安定した学習結果を得られる。 △ 学習の際のハイパーパラメータの調整機能が不足 2 Recommender ◯ 比較的安定した学習結果を得られる。 △ 類似度の計算方式を調整できない。 △ 並列処理時の有難味が薄い。 3 Regression △ 学習時の収束性に問題がある 4 Stat △ 基本的な統計処理が可能だが、統計処理の対象範囲指 定ができないため使い所が難しい 5 Graph △ 最短経路の探索機能に制限があり(landmarkの柔軟な 指定ができない)、出力される内容も正確でない場合がある。 △ 重み付きグラフ・有向グラフへに非対応 6 Anomaly ◯ 機能的には比較的使いやすい △ パラメータの調整が難しすぎる △ 自動的に「忘れる」機能が欲しい
  • 6. 6Copyright © 2013 NTT DATA Corporation 1. モデルの取得 2. 障害に対する配慮 3. ミドルウェアとしての構成をシンプルに 4. mixが効果的に動いてほしい 5. Jubatus の動作モデルのあり方について 世界征服を目指す Jubatus だからこそ期待する5つのポイント
  • 7. 7Copyright © 2013 NTT DATA Corporation  現状の Jubatus ではモデルを取得することができないため、Jubatus 内部での学習状況を把握できない  自社では Classifier について Jubatus の save の出力を参考に、モ デル(特徴ベクトル) を取得する機能を自作して活用中  「Rだと普通に使える機能」を提供してほしい  @kumagi さんによると、すでに実装し終えているとか...?? 1. モデルが取得できない
  • 8. 8Copyright © 2013 NTT DATA Corporation  現状の Jubatus は、障害に対する配慮が十分とはいえない  そもそも、どういう障害が起こりえて、どこを観測していればどのような 障害が発生していることを確認できるのだろうか? 例:この2つのエラーメッセージ、状態の違いって何...? - msgpackrpc.error.TimeoutError: Request timed out - msgpackrpc.error.RPCError: request timed out  まずは「事象を把握できること」を地道に作りこんでほしい  エラーメッセージから問題が識別できる  問題が識別できるようにエラーメッセージを出す 2. 障害に対する配慮
  • 9. 9Copyright © 2013 NTT DATA Corporation  現状の Jubatus は実験的に作ってみた要素が強い 1. パッケージの依存関係が多すぎる インストールが面倒くさい - devパッケージ・rpmパッケージともに用意されたので昔ほど煩雑ではない - ネットワークに繋がっている環境でインストールする分にはかまわないが... 依存パッケージのバージョンにもかなり引きずられる - Jubatus のバージョンアップのたびに周辺パッケージもアップデート いざ運用に入ったときにこれだけのパッケージの面倒をみるの...? - pficommon と MessagePack は特に強結合 3. ミドルウェアとしての構成が複雑
  • 10. 10Copyright © 2013 NTT DATA Corporation 2. 実装言語も多すぎる Jubatus は C++ で実装されているが、そのコードの一部を自動生成 するためにIDLが用意されている - mpidl : 各種ヘッダファイルの作成 → Haskel - jenerator : impl や keeper の作成 → OCaml 本当に言語を分ける必要があるのか... 3. ミドルウェアとしての構成が複雑
  • 11. 11Copyright © 2013 NTT DATA Corporation  Jubatus の Classifier は mix によって重みベクトル(モデルの 実体)を平均化している  しかし、この操作の意味は少なくとも自明に了解できる類のも のではない 例えば、以下の二つの状況を考える。 1. データを 2 プロセスに振り分けて学習し、結果を平均化する 2. データを 1/2 に間引き、1 プロセスで学習する このどちらが「正しい」のかの判断には慎重な検討を要し、ある程度以 上のデータ量を前提とすれば、直感的には、むしろ後者の方が統計的 に正しい結果を得られるようにも思われる。  mix を効果的に使うための構成やチューニング方法といった情 報の提供も望まれる 4. mixが効果的に動いてほしい
  • 12. 12Copyright © 2013 NTT DATA Corporation (参考) mix の動作検証 mixなし mix間隔512 mix間隔64 mix間隔8 1プロセス 8プロセス mixあり/mixなしで収束速度はほぼ同じ ※グラフの横軸 は投入件数、縦 軸は正答率(25 件ごとの移動平 均) <評価について> ・1 プロセスの場 合、評価を 8 回 に 1 回とした ・評価は特定の 1 プロセスについ てのみ実施した (8 プロセスの場 合はそのうちの 1 プロセス) mix間隔を狭めるにつれむしろ正答率の立ち上がりが鈍化 ・mix が効果を発揮できているのかを調査 ・Classifier に対し、20 Newsgroups の場 合の記事を 1 件ずつ評価・学習の順で投 入し、評価結果が正解か不正解かを出力
  • 13. 13Copyright © 2013 NTT DATA Corporation  機械学習の特性と並列処理の有効活用について  Jubatus は最初に実装された Classifier に適した動作モデルになっているが、全 モデルで共通の構成で良いのか?  レコード群を各プロセスで分割して保持し、評価を並列実行するようにすれば高速 化可能なはず → Recommender に限らず機械学習モデルごとに並列度を活かせ るような動作モデルをとる必要があるのでは? 5. Jubatus の動作モデルのあり方について Classifier Recommender 学習 遅い 速い 評価 速い 遅い Classifier の場合、相対的に処理速度が 遅くなる学習フェーズの部分を並列化す ることで高速化を図っている Recommender の場合、並列度を上げても評価に かかる時間は一定(Jubatus ではモデルを全プロセ スで共通化するため) → 並列化してもプロセスのプールができるだけで あり、高速化は期待できず、有り難みが少ない
  • 14. 14Copyright © 2013 NTT DATA Corporation  Jubatus は開発チームが非常にアクティブ  バグを指摘すると素早く修正してくれる  これからが正念場のプロダクト  Jubatusの発展を応援しています!  一緒にPOCをやってみたいという方は遠慮なくご連絡を! 最後に
  • 15. Copyright © 2011 NTT DATA Corporation Copyright © 2013 NTT DATA Corporation お問い合わせ先: 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス URL: http://oss.nttdata.co.jp/hadoop メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496