SlideShare uma empresa Scribd logo
1 de 12
Baixar para ler offline
LDAを使った教師なし単語分類
概要
LDAについて
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
LDAの構造
- 文章中の各単語がそれぞれ背景
にトピックを持つ
- 各文章は様々なトピックが混合
されている 20% 20%60%文章:
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
3.以下の確率で選んだ単語wのトピ
ックを変更する
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
単語分類の手順
( ­ は「選んだ単語を除く」という意味)
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
3.以下の確率で選んだ単語wのトピ
ックを変更する
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( ­ は「選んだ単語を除く」という意味)
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
3.以下の確率で選んだ単語wのトピ
ックを変更する
4. 2と3の繰り返し(収束するまで)
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( ­ は「選んだ単語を除く」という意味)
5.各背景トピックを持つ単語を
 数え上げる
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
トピック1
同点:1
競技性:1
トピック2
大リーグ:1
青木:1
カージナルス:1
本塁打:1
報道:1
トピック3
発祥:1
ロンドン:1
パラリンピック:1
世界記録:1
リオデジャネイロ:1
ニュース記事に適用してみる
セットアップ
単語の抽出: 30万語登録したキーワード辞書による
データ: スポーツの記事 2000 件
トピック数: 15
, : 全て 0.01
結果:
男子:85
大会:64
選手:63
メートル:61
女子:59
メダル:56
日本:54
金メダル:49
車いす:45
ロンドンパラリンピック:45
ゴルフ:129
ツアー:110
ヤード:94
オープン:91
女子:86
国内:85
大会:85
スタート:85
ホール:70
男子:63
試合:333
安打:205
監督:205
阪神:202
選手:178
広島:164
投手:156
連続:136
巨人:131
野球:122
選手:220
試合:212
Goa:152
監督:133
クラブ:122
大会:100
スペイン:97
世界:93
ワールドカップ:81
時間:76
オートスポーツ:54
レース:52
F1:40
イタリア:33
マシン:32
ドライバー:26
時間:15
タイム:15
ステージ:15
試合:246
日本:187
アジア最終予選:174
監督:168
日本代表:162
選手:160
イラク:136
サッカー:118
ブラジル:114
自分:113
大相撲:63
秋場所:62
大関:51
場所:48
両国国技館:44
東京:37
横綱:35
琴奨菊:35
日馬富士:35
初日:34
王者:54
東京:46
大会:33
カード:28
イベント:26
トーナメント:25
試合:24
王座:20
ジム:19
世界:17
女子:29
スポニチ:26
東京:25
大会:23
関係者:23
五輪:22
来年:20
ロンドン五輪:20
指導:16
東京都:15
15回以上登場した単語のみ表示
残り6トピック中には,
15回以上登場した単語が0
だったので表示していない
数字は各トピックに属する単語
の数
スポーツの各トピックごとに単語が分類できた
1つ1つが
トピックに対応

Mais conteúdo relacionado

Mais procurados

不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 

Mais procurados (20)

関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
Linked Open Dataとは
Linked Open DataとはLinked Open Dataとは
Linked Open Dataとは
 
データでみる機械学習と制御理論の類似点と相違点
データでみる機械学習と制御理論の類似点と相違点データでみる機械学習と制御理論の類似点と相違点
データでみる機械学習と制御理論の類似点と相違点
 
Union find(素集合データ構造)
Union find(素集合データ構造)Union find(素集合データ構造)
Union find(素集合データ構造)
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみたトピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
 
DockerコンテナでGitを使う
DockerコンテナでGitを使うDockerコンテナでGitを使う
DockerコンテナでGitを使う
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 

Destaque (7)

LDA入門
LDA入門LDA入門
LDA入門
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
 
Machine Learning Bootstrap
Machine Learning BootstrapMachine Learning Bootstrap
Machine Learning Bootstrap
 
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
 
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデル
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 

Último

Último (12)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

LDAを用いた教師なし単語分類