17. nDCG
DCG(Discounted Cumulative Gain)
結果には関連度(relevancy):Rが与えられている。Rは適
当な範囲の数値
順位i番目の結果の関連度をRiとする
p位までの結果に対するCG(Cumulative Gain):
CGpに順位が低いものに関連度Rの高いものが現れた場
合のペナルティを考慮したのがDCGp
p
i iRCGp 1
の減少関数はifRf
i
R
RDCGp
i
p
i ii
p
i
i
:generallymoreor
log
1
2
2
1
22. クラスタリングの評価:Purity
生成されたクラスタがどれだけ多数派で占めら
れているかを表す尺度
L
i
ji
j
L
i
ji
j
L
i
K
j
ji
jiL
j
ji
ji
K
n
N
n
n
purityglobal
n
n
puritylocal
j
in
L
CCCN
1
,
1
,
1 1
,
,
1
,
,
1
max
1
max
1
max
1
:
,,...:,:
するデータ数番目の真のクラスに属
て番目のクラスタにおい生成された
生成されたクラスタ数
真のクラス集合データ数
23. local purity
global purity
問題点 何もしない場合
全データが同一クラスタ
1クラスタが1データ
1 2 3
10
6
)1(,
8
4
)1(,
7
5
)1( puritypuritypurity
6.0
25
15
1087
645
purity
ji
ji
n
N
purity ,
,
max
1
11
1
max
1
11
, N
N
N
n
N
purity
L
i
L
i
ji
j