ノンパラベイズ入門の入門

ノンパラベイズ入門の入門

2012/11/09 MLxPGstudy
中谷秀洋 (@shuyo, id:n_shuyo)
サイボウズ・ラボ

資料について
• やること
– ベイズって何が嬉しいの？
– ノンパラベイズって何が嬉しいの？
• やらないことえー数式のほうが
わかりやすいのに！
– どうやって学習するの?
– プログラミング
– 数式
数式ないって
よかった～

パラメータの推定
- 最尤推定とベイジアン -

問題 1
• たかしくんがコインを 5 回投げたら、そ
のうち 3 回表が出ました。このコインの
表が出る確率を求めなさい。

つ、つっこまないぞ……
では投げます！
3
解答：
5

問題 2
• たかしくんがコインを 5000 回投げたら、
そのうち 3000 回表が出ました。このコ
インの表が出る確率を求めなさい。

3000 3
解答： =
5000 5

どっちも同じ答えでいいの？

コインの確率は？
• 確率 1/2 のコインかも
– たまたま「5回中、3回表」だっただけ
• 確率 1/5 のコインかも
– たまたま「5回中、3回表」だっただけ
• 5000回なら「めっちゃ 3/5」っぽい
– 何回以上なら 3/5 だって言ってもいい？
• これは「コイン投げ」のパラメータを求める
問題

最尤推定
• お手本(訓練データ)の確率が最大になるよ
うにパラメータを定める
– 実際に起きていることが一番起きやすい！
• 「表表表裏裏」の確率が最大になるのは
表の確率が 3/5 のとき
– ラグランジュ未定乗数法とか使うと示せる

ベイジアン
めっちゃ3/5！ • コインの確率は 3/5？
1/2？ 1/5？
– それぞれの可能性を確
率で表す
• 答えが確率分布で求まる
– 青： 3表/5回
– 赤： 3000表/5000回
3/5 の可能性高め • 情報量が多い
でも自信はない!! – 最尤推定だとどちらも
3/5 で区別できない

1つのチャートに収めるため、2つの縦の縮尺は異なっています
事前分布によってグラフの形は大きく変わります(図は Beta(1,1) の場合)

最尤推定 vs ベイジアン
• どっちがいいの？
– どっちがいいとかそういうことではなく
– 解き方はまだまだ他にもあるし
• 結局、問題やモデル次第
– 最尤推定が適した問題なら最尤推定
– ベイジアンが(ry
• ただし、この発表の中ではベイジアン推し
– ノンパラベイスの話だからね！

言語モデル
• 文章のもっともらしさを数値化
– もっともらしい文章に良い数値を返す
– 確率的言語モデル:もっともらしさを確率で
• 簡単なモデルからスタートして、ノンパラベイズに
たどり着くのを見ていきましょう

「もっともらしさ」さりげに難しいこと
って何？聞いてくるねえ

ユニグラム(1-gram)
• 最も簡単な言語モデル
– 文書の内の単語の確率を掛け算
– お手本文書（コーパス）での各単語の割合が
そのまま単語の確率に
• 最尤推定！
この文章の確率
（もっともらしさ）

I am a pen
0.011×0.005×0.025×0.001 =1.375 × 10-9

ユニグラム(1-gram)

コーパスから作った単語分布

矢印は
文書の単語がこの単語分布に
従っているってこと

アニメ政治ＩＴ

• 全ての文書に共通の単語分布を使う
– 単語「マンガ」の確率はどの文書でも同じ

文書ごとに単語分布を作ったら……

• １つの単語分布を作るのに使えるデータが少ない
– 共通の単語もいっぱいあるのに……
– 機械学習の大原則「データが増えるほどよい」！

文書グループごとに単語分布を……

アニメ政治ＩＴ
• 文書を「正しく」グループ分けするのは大変！！
– 複数のグループに属するような文書はどうする？
– 「ナイーブベイズモデル」はこっち方向

LSI (Latent Semantic Indexing)

0.5 0.3 0.2

• 単語分布の個数 K は適当に決める(図は K=3)
– 各文章の単語分布は K 個の単語分布を適当に混ぜる
– 単語分布と混合比を同時に最尤推定(EMアルゴリズム)

もっと性能を上げたい！

LSI をベイズ化
• 最尤推定でパラメータを決定的に推定
– 「それってたまたまじゃあないの？」問題
• 他にもゼロ頻度問題とか（今はやらないけど）

• ベイズ化してみよう！
– LSI のパラメータは単語分布と混合比
– それらの可能性を分布として表現

ディリクレ分布
(0,1,0)

(0.5,0.3,0.2)
(0,0,1)

(0,0,1) (1,0,0)

• 足して1になる値の確率分布
– 3次元の場合、三角形の上の分布と見なせる
– 高次元でも同じ三角形イメージで

LDA (Latent Dirichlet Allocation)
(0,
(0, (0, 0,1
0,1 0,1 )
) )

• LSI の単語分布と混合比にディリクレ分布を入れる
– ゼロ頻度対策しつつ、混合により多い情報を反映
• 言語モデルとして性能向上！

もっともっと性能を上げたい！

LDA をさらにベイズ化！？

(0
,0
,1
(0 (0
)
,0 ,0
,1 ,1
) )

• 単語分布の個数 K と混合比のディリクレ分布のパラメータを
適切に選ぶと、LDA の性能が上がる
• パラメータをベイズ化したら、学習時に自動的に決まる！
– ……って、やりたいところだけど単純にはできない……

ベイズ化に都合のいい分布
(共役事前分布)

• なんでもベイズ化できるわけではない
– 推論に必要な積分が計算できないとツライ
• 「共役事前分布」
– 推論に出てくる積分を計算しなくていい分布
– 実はディリクレ分布は多項分布の共役事前分布
• ディリクレ分布に共役事前分布ある？
– 一応あるけど、その分布自体すでに計算できない

ものすごく都合のいい分布
• ディリクレ分布の代わりに使えて、
• パラメータに分布を入れても計算できて、
• ついでに単語分布数 K も勝手に決めてく
れる分布

そんな都合良すぎる分布
あるわけないよなあ……

ノンパラメトリックベイズ

ディリクレ過程 (Dirichlet Process)
乱暴にいうと、次数が可変のディリクレ分布

• 重み付きの空間（図の黒太線）から可変個の点を取っ
て、それぞれに確率を与える分布
– 縦線の本数が K に対応
– 縦線の長さがそれぞれの点の確率に対応
• 可変個 → 「ノンパラメトリック」な分布
– パラメータがないわけではない

階層ディリクレ過程 (HDP)
• ディリクレ過程のパラメータに
ディリクレ過程を入れる
– 積分は出来ないが、これを解く
方法がある(中華フランチャイズ
過程など)

やめてー

LSI をノンパラベイズ化！
(HDP-LDA)

(0,
0,1
K )

…
• LSIの単語分布をベイズ化、混合比をHDPでノンパラベイズ化
– 混合比分布のパラメータと単語分布の個数 K が自動的に決まる！
• 本質的には LDA と大きく変わるわけではない
– 最適なパラメータを選択した LDA と同じ精度になる

ノンパラベイズの応用
• 階層化
– パラメータの自動決定
• チューニングに血道を上げなくても性能が出る
– 複雑で高度なモデルの構築
• sequence memoizer (最高性能の言語モデル)
• 教師無し分かち書き
• 次数の自動決定
– クラスタ数を事前に仮定したくないモデル
– 物体認識, 音源推定, etc
• 実応用にはあともうちょっと？
– 高速なオンライン＆近似推論の決定版待望

まとめ
• ノンパラベイズはパラメトリックモデルの
「究極進化形」(ポケモン的な意味で)
– 「ノンパラメトリック」より「ウルトラパラメトリック」
とか呼びたいかも (解空間がデータによらないし）
– ホントのノンパラメトリックなベイズと区別しないの？
• 次に読むなら山本さん/持橋さんの資料がおすすめ
– Topicに基づく統計的言語モデルの最前線 - PLSIからHDPまで-
– http://chasen.org/~daiti-m/paper/topic2006.pdf
• 入門編(数式バリバリ)は Tokyo.ML(仮称)で!?
– 開催時期の予定は未定

ありがとうございました

ノンパラベイズ入門の入門

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a ノンパラベイズ入門の入門

Semelhante a ノンパラベイズ入門の入門 (20)

Mais de Shuyo Nakatani

Mais de Shuyo Nakatani (20)

Último

Último (10)

ノンパラベイズ入門の入門