Enviar pesquisa
Carregar
発言小町からのプロファイリング
•
Transferir como PPTX, PDF
•
2 gostaram
•
11,069 visualizações
J
JubatusOfficial
Seguir
発言小町からのプロファイリング
Leia menos
Leia mais
Engenharia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 11
Baixar agora
Recomendados
銀座のママ
銀座のママ
JubatusOfficial
20180903_apply_alexa_skill_award
20180903_apply_alexa_skill_award
Ayaka Tajiri
appengine4java-scaleout
appengine4java-scaleout
WdWeaver a.k.a Wada3
PHPで全文検索エンジンをつくるまで
PHPで全文検索エンジンをつくるまで
優之 田中
Jubatus解説本の紹介
Jubatus解説本の紹介
JubatusOfficial
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)
JubatusOfficial
新機能紹介 1.0.6
新機能紹介 1.0.6
JubatusOfficial
Recomendados
銀座のママ
銀座のママ
JubatusOfficial
20180903_apply_alexa_skill_award
20180903_apply_alexa_skill_award
Ayaka Tajiri
appengine4java-scaleout
appengine4java-scaleout
WdWeaver a.k.a Wada3
PHPで全文検索エンジンをつくるまで
PHPで全文検索エンジンをつくるまで
優之 田中
Jubatus解説本の紹介
Jubatus解説本の紹介
JubatusOfficial
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)
JubatusOfficial
新機能紹介 1.0.6
新機能紹介 1.0.6
JubatusOfficial
かまってちゃん小町
かまってちゃん小町
JubatusOfficial
Jubakitの解説
Jubakitの解説
JubatusOfficial
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
JubatusOfficial
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
JubatusOfficial
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
JubatusOfficial
小町の溜息
小町の溜息
JubatusOfficial
JUBARHYME
JUBARHYME
JubatusOfficial
地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAI
JubatusOfficial
gRPCをちょこっと調べた話
gRPCをちょこっと調べた話
Shuzo Kashihara
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
JubatusOfficial
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Shohei Hido
"アレ"からJubatusを使う
"アレ"からJubatusを使う
JubatusOfficial
Jubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみた
JubatusOfficial
もくもくしたこと
もくもくしたこと
k_oi
もくもく成果 IMAMASU
もくもく成果 IMAMASU
JubatusOfficial
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
JubatusOfficial
jubarecommenderの紹介
jubarecommenderの紹介
JubatusOfficial
JubaQLご紹介
JubaQLご紹介
JubatusOfficial
Jubaanomalyについて
Jubaanomalyについて
JubatusOfficial
Apache Thrift Outline
Apache Thrift Outline
Akihiro Katou
jubabanditの紹介
jubabanditの紹介
JubatusOfficial
Jubakitの紹介
Jubakitの紹介
JubatusOfficial
Mais conteúdo relacionado
Destaque
かまってちゃん小町
かまってちゃん小町
JubatusOfficial
Jubakitの解説
Jubakitの解説
JubatusOfficial
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
JubatusOfficial
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
JubatusOfficial
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
JubatusOfficial
小町の溜息
小町の溜息
JubatusOfficial
JUBARHYME
JUBARHYME
JubatusOfficial
地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAI
JubatusOfficial
gRPCをちょこっと調べた話
gRPCをちょこっと調べた話
Shuzo Kashihara
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
JubatusOfficial
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Shohei Hido
"アレ"からJubatusを使う
"アレ"からJubatusを使う
JubatusOfficial
Jubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみた
JubatusOfficial
もくもくしたこと
もくもくしたこと
k_oi
もくもく成果 IMAMASU
もくもく成果 IMAMASU
JubatusOfficial
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
JubatusOfficial
jubarecommenderの紹介
jubarecommenderの紹介
JubatusOfficial
JubaQLご紹介
JubaQLご紹介
JubatusOfficial
Jubaanomalyについて
Jubaanomalyについて
JubatusOfficial
Apache Thrift Outline
Apache Thrift Outline
Akihiro Katou
Destaque
(20)
かまってちゃん小町
かまってちゃん小町
Jubakitの解説
Jubakitの解説
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
小町の溜息
小町の溜息
JUBARHYME
JUBARHYME
地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAI
gRPCをちょこっと調べた話
gRPCをちょこっと調べた話
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
"アレ"からJubatusを使う
"アレ"からJubatusを使う
Jubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみた
もくもくしたこと
もくもくしたこと
もくもく成果 IMAMASU
もくもく成果 IMAMASU
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
jubarecommenderの紹介
jubarecommenderの紹介
JubaQLご紹介
JubaQLご紹介
Jubaanomalyについて
Jubaanomalyについて
Apache Thrift Outline
Apache Thrift Outline
Mais de JubatusOfficial
jubabanditの紹介
jubabanditの紹介
JubatusOfficial
Jubakitの紹介
Jubakitの紹介
JubatusOfficial
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
JubatusOfficial
Jubatus 新機能ハイライト
Jubatus 新機能ハイライト
JubatusOfficial
Jubatusでuserとbrandのレコメンドを試してみた話
Jubatusでuserとbrandのレコメンドを試してみた話
JubatusOfficial
相撲
相撲
JubatusOfficial
興味ありそうなもの検索
興味ありそうなもの検索
JubatusOfficial
チーム:大杉さんの壮大な夢
チーム:大杉さんの壮大な夢
JubatusOfficial
Jubatus使ってみた 作ってみたJubatus
Jubatus使ってみた 作ってみたJubatus
JubatusOfficial
Mais de JubatusOfficial
(9)
jubabanditの紹介
jubabanditの紹介
Jubakitの紹介
Jubakitの紹介
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
Jubatus 新機能ハイライト
Jubatus 新機能ハイライト
Jubatusでuserとbrandのレコメンドを試してみた話
Jubatusでuserとbrandのレコメンドを試してみた話
相撲
相撲
興味ありそうなもの検索
興味ありそうなもの検索
チーム:大杉さんの壮大な夢
チーム:大杉さんの壮大な夢
Jubatus使ってみた 作ってみたJubatus
Jubatus使ってみた 作ってみたJubatus
発言小町からのプロファイリング
1.
Jubatus Hackathon 2016.11.12 発言小町からのプロファイリング
2.
分析目的 発言小町を発言者カットで見てみて発言者のペルソナを分析してみたい 可能であれば発言者のペルソナの時間軸上での変遷を見てみたい
3.
入力データ 発言小町 User
ID User Name Date Title Url Topic Id Group Message Votes Responses Face n_response n_favorite 発言小町からとってきたデータ とりあえず、約10,500件
4.
k-Meansによるクラスターの頻度分布 6 48.78154 2 22.20186 3
13.48933 0 7.709726 7 3.493638 1 2.792754 5 1.52038 4 0.010783
5.
クラスターの解釈 クラスター 番号 6 2
3 4 の 1.19 4.78 2.77 4.72 こと 0.71 1.22 1.45 5.66 私 0.66 1.27 5.31 2.79 よう 0.58 1.19 1.09 1.99 方 0.53 0.80 0.65 0.85 ない 0.46 0.97 1.00 1.37 人 0.38 0.80 1.17 1.48 何 0.30 0.55 0.67 0.76 ん 0.29 0.45 0.68 0.60
6.
分析設計 発言小町のデータのMessageからBag of
wordsを作成 Bag of wordsを元にクラスタリング User IDごとに各発言の分類されたクラスタIDを集計 クラスタごとの合計を総発言数で除してスコアを作成 これをそのユーザのペルソナとする
7.
データ加工 文章をMeCabで形態素解析して単語を抽出 単語は品詞として名詞、形容詞、副詞を分析対象とする
MeCabで特殊扱いされている*を表層とするものは解析対象から外す 同様にが、の、に、をのような単語も分析対象としない 形態素解析後 30000変数ぐらい 変数数を削減 出現頻度のあまりにも少なすぎる変数や外れ値と考えられる記号などが単独で 抽出された変数を削除するなどクレンジングを実施 削減後7000位に
8.
クラスタリング Jubatusでクラスタリングを実 施する クラスタリング手法としては DBSCAN(Density-Based
Spatial Clustering Applications with Noise)を使用する 本データの場合、クラスタ数が 不明、加えてクラスタとして超 球面を仮定するのは妥当ではな いため、k-Means法の使用は妥 当ではない
9.
Jubatusに入れてみるテスト jubaclustering --configpath /opt/jubatus/share/jubatus/example/config/clustering/dbscan.json
ハイパーパラメータはExampleそのもので df = jubaClient.push(batch) res = jubaClient.get_core_members() Error! msgpackrpc.error.RPCError: b'clustering is not performed yet‘ What?
10.
Use the source, Luke!
Jubatus coreのソース読む get_clusters綾しい If (clusters.empty()) { throw JUBATUS_EXCEPTION(not_perfo rmed()); } なぜに空っぽ!ガンガンガン! ドキュメントがあるわけでもな く謎
11.
ハイパーパラメー タを洗ってみる eps :
2.0, min_core_point : 3 Density-Based Spatial Clustering Applications with Noise EpsとMinPtsの二つのハイパーパラ メータ とりあえず怪しくなさそう 困った
Baixar agora