Enviar pesquisa
Carregar
トピックモデルの話
•
64 gostaram
•
28,407 visualizações
K
kogecoo
Seguir
Talk about Topic Modeling @cookpad
Leia menos
Leia mais
Dados e análise
Vista de apresentação de diapositivos
Denunciar
Compartilhar
Vista de apresentação de diapositivos
Denunciar
Compartilhar
1 de 31
Baixar agora
Baixar para ler offline
Recomendados
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
Ken'ichi Matsui
潜在ディリクレ配分法
潜在ディリクレ配分法
y-uti
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
Junya Saito
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
Masatoshi Yoshida
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
Ichigaku Takigawa
Recomendados
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
Ken'ichi Matsui
潜在ディリクレ配分法
潜在ディリクレ配分法
y-uti
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
Junya Saito
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
Masatoshi Yoshida
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
Ichigaku Takigawa
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
負の二項分布について
負の二項分布について
Hiroshi Shimizu
階層的クラスタリング入門の入門
階層的クラスタリング入門の入門
Mas Kot
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
Yusuke Kaneko
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
TeranishiKeisuke
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Shintaro Fukushima
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
daiki hojo
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
gree_tech
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
Kazuyuki Wakasugi
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
Topic model
Topic model
saireya _
LDA入門
LDA入門
正志 坪坂
Mais conteúdo relacionado
Mais procurados
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
負の二項分布について
負の二項分布について
Hiroshi Shimizu
階層的クラスタリング入門の入門
階層的クラスタリング入門の入門
Mas Kot
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
Yusuke Kaneko
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
TeranishiKeisuke
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Shintaro Fukushima
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
daiki hojo
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
gree_tech
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
Kazuyuki Wakasugi
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
Mais procurados
(20)
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
負の二項分布について
負の二項分布について
階層的クラスタリング入門の入門
階層的クラスタリング入門の入門
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
グラフィカルモデル入門
グラフィカルモデル入門
PRML第6章「カーネル法」
PRML第6章「カーネル法」
DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Rで学ぶロバスト推定
Rで学ぶロバスト推定
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Stan超初心者入門
Stan超初心者入門
Destaque
Topic model
Topic model
saireya _
LDA入門
LDA入門
正志 坪坂
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
Taro Tezuka
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
Hirofumi Tsuruta
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
Yusuke Fukasawa
DeNAの報告書を可視化して雰囲気をつかむ
DeNAの報告書を可視化して雰囲気をつかむ
Yusuke Fukasawa
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
Yusuke Fukasawa
料理レシピサービスにおける検索語の意味変化に関する分析
料理レシピサービスにおける検索語の意味変化に関する分析
Yusuke Fukasawa
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
Yusuke Fukasawa
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
Yusuke Fukasawa
LDA等のトピックモデル
LDA等のトピックモデル
Mathieu Bertin
コミュニケーション
コミュニケーション
saireya _
メディア・リテラシー
メディア・リテラシー
saireya _
暗号
暗号
saireya _
BADUIからユニバーサルデザインへ展開するデザイン教育実践
BADUIからユニバーサルデザインへ展開するデザイン教育実践
saireya _
著作権
著作権
saireya _
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践
saireya _
メディア・リテラシー実習
メディア・リテラシー実習
saireya _
セル結合を含む表のデータモデル
セル結合を含む表のデータモデル
saireya _
What is "design"?
What is "design"?
saireya _
Destaque
(20)
Topic model
Topic model
LDA入門
LDA入門
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
DeNAの報告書を可視化して雰囲気をつかむ
DeNAの報告書を可視化して雰囲気をつかむ
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
料理レシピサービスにおける検索語の意味変化に関する分析
料理レシピサービスにおける検索語の意味変化に関する分析
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
LDA等のトピックモデル
LDA等のトピックモデル
コミュニケーション
コミュニケーション
メディア・リテラシー
メディア・リテラシー
暗号
暗号
BADUIからユニバーサルデザインへ展開するデザイン教育実践
BADUIからユニバーサルデザインへ展開するデザイン教育実践
著作権
著作権
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践
メディア・リテラシー実習
メディア・リテラシー実習
セル結合を含む表のデータモデル
セル結合を含む表のデータモデル
What is "design"?
What is "design"?
Semelhante a トピックモデルの話
質問応答システム入門
質問応答システム入門
Hiroyoshi Komatsu
Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
100816 nlpml sec2
100816 nlpml sec2
shirakia
入門トピックモデル + Google colab で試せる実装
入門トピックモデル + Google colab で試せる実装
pon get
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
情報科学演習 09
情報科学演習 09
libryukyu
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
Koji Matsuda
言語資源と付き合う
言語資源と付き合う
Yuya Unno
Rm20130619 9key
Rm20130619 9key
youwatari
テキストマイニング講義資料
テキストマイニング講義資料
Kosuke Sato
Rm20140423 2key
Rm20140423 2key
youwatari
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
つながるデータShare
つながるデータShare
Seiji Koide
シー・ビブリオ
シー・ビブリオ
genroku
情報科学演習 09
情報科学演習 09
libryukyu
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Hiroki Takanashi
Chainer with natural language processing hands on
Chainer with natural language processing hands on
Ogushi Masaya
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
Takuya Nishimoto
Semelhante a トピックモデルの話
(20)
質問応答システム入門
質問応答システム入門
Twitterテキストのトピック分析
Twitterテキストのトピック分析
100816 nlpml sec2
100816 nlpml sec2
入門トピックモデル + Google colab で試せる実装
入門トピックモデル + Google colab で試せる実装
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
情報科学演習 09
情報科学演習 09
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
言語資源と付き合う
言語資源と付き合う
Rm20130619 9key
Rm20130619 9key
テキストマイニング講義資料
テキストマイニング講義資料
Rm20140423 2key
Rm20140423 2key
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
つながるデータShare
つながるデータShare
シー・ビブリオ
シー・ビブリオ
情報科学演習 09
情報科学演習 09
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Chainer with natural language processing hands on
Chainer with natural language processing hands on
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
トピックモデルの話
1.
トピックモデルの話 cookpad 勉強会? 2015/04/27 Mon. twitterID:
@kogecoo
2.
自己紹介 • @kogecoo • background:
自然言語処理/機械学習 • 構文解析/ノンパラベイズ • 推薦アルゴリズムを主に(と言いたい)、わりと何でも
3.
はじめに • いきなりトピックモデル本2冊出た • 少し前までは書籍で勉強とはいかなかった •
→ 敷居がだいぶ下がった(twitter調べ) • イケてる本なので両方買いましょう • PRMLでベイズに挫折した人にもオススメ そういう人はついでに これも買いましょう
4.
はじめに • トピックモデルとは • データの背後にある隠れた「トピック」を推定する •
自然言語処理で潜在意味解析という文脈で発展 • ここでのデータは「文書」 • トピック/潜在意味? • → 話題や分野と考えると理解しやすいかも
5.
はじめに • 豊富な応用先 • 文書 •
画像 • 音楽 • etc • 研究だけでなく、実応用も…
6.
大人の事情で割愛
7.
大人の事情で割愛
8.
もくじ • はじめに • Latent
Semantic Indexing (LSI) • Probabilistic LSI (PLSI) • Latent Dirichlet Allocation (LDA) • おわりに
9.
Latent Semantic Indexing •
検索分野で登場 (Deerwester+, 1988) • のでIndexing(Analysisとも) • 同義語の検索を可能にする目的 • car/automobileともに同じ検索結果を得たい • (地味にpatentが取られていた; expired)
10.
Latent Semantic Indexing 文書ベクトル1 dog automobile car 1
0 catwheel rabbit … 1 0 0 0 … 文書ベクトル2 1 1 0 0 0 0 … 文書ベクトル3 0 1 1 0 0 0 … 文書ベクトル4 0 0 0 1 1 0 … 文書ベクトル5 0 0 0 0 1 1 … 文書ベクトル6 0 0 0 0 1 0 … • 文書-語彙の共起行列 • 語の使われ方でなんとなくグルーピングできそう…
11.
• 特異値分解 • からの
低ランク近似 • Sの特異値の小さいものを削る Latent Semantic Indexing X = U S V 文書 語 文書 トピック トピック 語 X = U S V (対角行列) S
12.
• 低ランク近似 • Sの特異値の小さいものを削る •
文書を特徴づけ易い重要な次元が生き残る • ノイズ削減 • 重要な次元 → トピック、重要な次元の数 → トピック数 Latent Semantic Indexing X = U S V 文書 語 文書 トピック トピック 語 S
13.
Latent Semantic Indexing •
LSIの困った所 • U 、V に現れる値の意味付けが困難 • 負の値も取りうる • トピックの軸は直交するよう選ばれる • 頻度分布としてガウス分布を仮定 • etc…
14.
もくじ • はじめに • Latent
Semantic Indexing (LSI) • Probabilistic LSI (PLSI) • Latent Dirichlet Allocation (LDA) • おわりに
15.
Probabilistic LSI • LSIを確率生成モデルとして考え直す(Hoffmann,
1999) • 文書-単語共起行列がどのような経過をたどって作られ たのか? X = U S V 文書 語 文書 トピック トピック 語 S
16.
• PSLIの文書生成 • 文書-単語共起確率 •
文書dが生成 • トピックzが生成 • 単語wが生成 Probabilistic LSI
17.
Probabilistic LSI • ある文書dがあり、その中にある単語wに注目する •
この文書のトピックがあるトピックzである確率 • dの中の単語wについて • トピックzにおける出現のしやすさ • dの出現のしやすさ
18.
Probabilistic LSI • 文書dの出現しやすさp(d)とかよくわからない •
のでベイズの公式を使って消してしまう • 学習データの尤度を最大化する上記3パラメータをEMで推定
19.
Probabilistic LSI • 性質 •
文書ごとに複数のトピックを持ちうる • (トピック数は与える必要がある) • トピックごとに異なる単語生成確率の分布を持ちうる
20.
Probabilistic LSI • PLSIの問題点 •
dは学習コーパス内の文書実体 • 新規文書を自然に扱えない • 推定すべきパラメータ数が多すぎる • 文書数 トピック数 • 過学習し易い
21.
もくじ • はじめに • Latent
Semantic Indexing (LSI) • Probabilistic LSI (PLSI) • Latent Dirichlet Allocation (LDA) • おわりに
22.
Latent Dirichlet Allocation •
PLSIのベイズ化 (Blei+, 2003) • そうすると何が嬉しいか? • dに直接依存しないトピックの確率分布を得られる • 新規文書も扱える この確率分布を生成する確率分布を考える 事前分布を導入 という言い方をする αはトピック数次元の ベクトル
23.
Latent Dirichlet Allocation •
PLSIのベイズ化 • さらに単語分布にスムージングを入れる • ※[Blei+, 2003]で書かれているLDAにはこの拡張が無いもの • Smoothed LDAという名前で同論文で導入 • 多くの参考文書でこちらがLDAとして扱われているので… この確率分布を生成する確率分布を考える βは語彙数次元の ベクトル トピック数分 トピックzにの時の 単語分布のパラメータ
24.
Latent Dirichlet Allocation •
PLSIのベイズ化 • ちなみにこのモデルでは • 文書dのことは完全に忘れる • d中の単語集合w=w1, w2…wNで文書を代表させる
25.
Latent Dirichlet Allocation •
LDAの文書生成 • トピック数Kは与える • 各トピックごとに単語分布を生成 • 各文書ごとにトピック分布を生成 • 単語のトピックを生成 • 上記単語のトピックに該当する単語分布を選び、単語を生成 • たったこれだけ!
26.
もくじ • はじめに • Latent
Semantic Indexing (LSI) • Probabilistic LSI (PLSI) • Latent Dirichlet Allocation (LDA) • おわりに
27.
おわりに • LDAの初出(Blei+; 2003) •
10年以上前 • これを原典として拡張が多く提案されている
28.
おわりに • 著者も一緒にモデリング • トピック間の独立仮定を外す •
トピック間の階層構造を導入 • トピック数Kの自動推定 • 教師あり • etc…
29.
おわりに • LDAはベイズモデルの中ではかなりシンプル • のため、拡張の余地が大きかった •
かつ性能が良い • のため、広く使われるようになった • (と想像 • ベイズワールド初学者にも最適 • しかも本もある。やるなら今!
30.
まとめ • LSI • 特異値分解を利用した次元縮約 •
PSLI • LSIの確率モデル化 • LDA • PLSIのベイズモデル化 • LDAは比較的シンプルだから勉強に良いという話 • 最近出た2冊の本の宣伝
31.
おことわり • 本資料は • 以下の書籍、 •
2013年の統計数理公開講座資料 • 2014年のIBISのチュートリアル • を元に作成されています。問題があればご報告ください。
Baixar agora