3. ブーリアンモデルと集合論
V = {k a ,k b ,kc }
q = ka ∧ (k b ∨ ¬k c )
qDNF = (1,1,1) ∨ (1,1,0) ∨ (1,0,0) DNF: Disjunctive Normal Form
ka
kb
(1,0,0)
(1,1,0)
€ (1,1,1)
3
kc
14. Naïve Bayes conditional independence assumption
文書中のタームの有無は、与えられたクエリ中の他のタームの有無とは独立
M
P(x | R = 1,q) P(x t | R = 1,q)
=∏
P(x | R = 0,q) t =1 P(x t | R = 0,q)
14
€
15. M
P(x t | R = 1,q)
O(R | x,q) = O(R | q)⋅ ∏
t =1 P(x t | R = 0,q)
P(x t = 1 | R = 1,q) P(x t = 0 | R = 1,q)
= O(R | q)⋅ ∏ P(x = 1 | R = 0,q) ⋅ ∏
t:x t =1 t t:x t =0 P(x t = 0 | R = 0,q)
pt 1 − pt
= O(R | q)⋅ ∏u ⋅ ∏ pt = P(x t = 1 | R = 1,q)
とおいた
t:x t =1 t t:x t =0 1 − ut ut = P(x t = 1 | R = 0,q)
pt 1 − pt
= O(R | q)⋅ ∏ u ⋅ ∏ qt = 0 のとき
t = ut と仮定
p
t:x t =q t =1 t t:x t =0,q t =1 1 − ut
€
pt (1 − ut ) 1 − pt
= O(R | q)⋅ ∏ u (1 − p ) ⋅ ∏
t:x t =q t =1 t t t:q t € 1 − ut
=1
€
定数
(ランキングには無関係)
15
€
17. Retrieval Status Value
pt (1 − ut ) pt (1 − ut )
RSVd = log ∏ = ∑ log
t:x t =q t =1 ut (1 − pt ) t:x t =q t =1 ut (1 − pt )
€
17
18. pt (1 − ut ) pt (1 − ut )
c t = log = log + log
ut (1 − pt ) (1 − pt ) ut
RSVd = ∑c t
x t =q t =1
€ 18
19. 確率の推定(理論)
pt = s /S
ut = (df t − s) /(N − S)
s /(S − s)
c t = K(N,df t ,S,s) = log
(df t − s) /((N − df t ) − (S − s))
1 1
(s + ) /(S − s + )
ˆ
c t = K(N,df t ,S,s) = log 2 2
1 1
(df t 19
s + ) /(N − df t − S + s + )
−
2 2
20. 確率の推定(実践)
文書コレクション中でクエリに関連する文書は数が少ないと仮定できるので
df t
ut = とおける。
N
(1 − ut ) (N − df t ) N
log = log ≈ log
€
ut df t df t
idfと同じ!
Pt側は複雑なので省略。参考文献[2]の11章を参照のこと。
€ 20
21. BM25
クラシックな確率モデルに、ベクトルモデルでの知見
を加味してBM25が誕生した
idf
tf
document length normalization
BM25を最初に実装した検索システムがOkapi
N (k1 +1)tf td
RSVd = ∑ log( )⋅
t∈q
df t k {(1 − b) + b Ld } + tf
1 td
21
Lave
22. Language Model
自然言語の文中で、次の単語の起こりやすさを考慮で
き、その確率を与えるモデル。
(確率的)言語モデルをIRに適用
クエリを観測す
文書を観測する可能性
る確率を予測す
を予測するのにクエリ
るために文書テ
を用いる
キストを用いる
従来のモデル 言語モデル
P(R=1|d,q)
P(q|Md)
22
23. Divergence From Randomness
確率過程によって生成された単語分布と、実際の分布
の相違度/逸脱度(divergence)を計測することによ
り、単語の重みを計算
文書dj中のタームkiの重みwi,jとして、ランキングR, ク
エリq中のタームkiの回数fi,q
w i, j = (−log P(k i | C)) × (1 − P(ki | d j ))
情報量
R(d j ,q) = ∑f i,q × w i, j
ki ∈q
23
24. 参考文献
1. Modern Information Retrieval: The Concepts and
Technology behind Search (2nd Edition), Ricardo Baeza-
Yates, Berthier Ribeiro-Neto, Addison-Wesley
Professional, 978-0321416919
2. Introduction to Information Retrieval, http://
nlp.stanford.edu/IR-book/information-retrieval-
book.html
3. 言語と計算(4) 確率的言語モデル
東京大学出版会
北
研二, 辻井
潤一
24