Mais conteúdo relacionado Mais de Ken'ichi Matsui (20) 基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理3. MASAKARI Come On! щ(゜ロ゜щ)
みんなで勉強しましょう
https://twitter.com/_inundata/status/616658949761302528
14. ・施行 (trial)
… 偶然によて決まる観測・実験のこと
・事象 (event)
… 施行の結果起こりうる状態
・標本空間 (sample space)
… 起こりうるすべての状態の集合
・根元事象 (fundamental event)
… それ以上分割できない事象
確率:各種用語の定義
17. 確率:大数の法則
5 20 50 100 99999
1st 0.2 0.25 0.26 0.37 0.400944
2nd 0.2 0.30 0.40 0.36 0.400284
3rd 0.6 0.35 0.38 0.36 0.398694
4th 0.6 0.35 0.40 0.40 0.397924
試行の繰り返し回数:nを大きくすると、事象が本来
持っている確率に近づく。
nA
n
! p(A)
19. 確率:大数の法則:Pythonコード
p
=
0.4;
n
=
100000;
m
=
100000
trial
=
np.array([st.bernoulli.rvs(p=p,
size=n)
for
_
in
range(4)])
result
=
np.array([np.mean(trial[i,
0:j])
for
j
in
range(m)
for
i
in
range(4)])
result
=
[]
for
i
in
range(4):
result.append(np.array([np.mean(trial[i,
0:j])
for
j
in
range(m)]))
result
=
np.array(result)
df
=
pd.DataFrame(result.T,
columns=['1st',
'2nd',
'3rd',
‘4th'])
df.plot(figsize=(18,
6),
lw=.5)
https://github.com/matsuken92/Qiita_Contents/blob/master/Bayes_chap_01/Bayes_Statistics_chap.01.ipynb
20. 分割
A1
A2
A1, A2, · · · , Ai, · · · , Aa
a個の事象の組、
が、互いに共通の根元事象を含まず、同時に標本
空間を表現しているとする。
aX
i=1
p(Ai) = 1
標本空間がa個に分割されている時、その確率の
総和は1となる。
23. 同時確率:例
1年生 2年生 3年生
合計
女性
C1: 7
C2: 8
C1: 5
C2: 7
C1: 6
C2: 7
40
男性
C1: 10
C2: 12
C1: 11
C2: 9
C1: 10
C2: 8
60
合計 37 32 31 100
表1.2 生徒の人数の内訳
B1 B2 B3
A2
A1
さらに、3つ目の分割、
を考える。 c=2で、きょうだいの有無を表すとす
るとこれも分割になる。
このときも、Ai, Bj, Ckに関して
が成りたつ。
aX
i=1
bX
j=1
cX
k=1
p(Ai, Bj, Ck) = 1
C1, C2, · · · , Ck, · · · , Cc
24. 周辺確率
1年生 2年生 3年生
合計
女性 15 12 13 40
男性 22 20 18 60
合計 37 32 31 100
B1 B2 B3
A2
A1
aX
i=1
p(Ai, Bj) = p(Bj)
bX
j=1
p(Ai, Bj) = p(Ai)
1つの分割に対して足し上げをすると、残りの分割
の確率となる
2X
i=1
p(Ai, B1) = p(A1, B1) + p(A2, B1) = p(B1)
0.12 0.20 0.32
25. 周辺確率
aX
i=1
p(Ai, Bj, Ck) = p(Bj, Ck)
aX
i=1
bX
j=1
p(Ai, Bj, Ck) = p(Ck)
3つ目の分割Ckに関して考えると、下記のような公
式が導かれる。
1年生 2年生 3年生
合計
女性 15 12 13 40
男性 22 20 18 60
合計 37 32 31 100
B1 B2 B3
A2
A1
26. 条件付き確率
選ばれた生徒が女性であるとわかっている
↑ 事前情報あり
1年生 2年生 3年生
合計
女性 0.15 0.12 0.13 0.40
男性 0.22 0.20 0.18 0.60
合計 0.37 0.32 0.31 1.00
B1 B2 B3
A2
A1
その条件のもとで、その生徒が2年生である確率は?
女性は40人なので、その中の12人なので、
12/40 = 0.3 or 0.12/0.40 = 0.3
同時確率を周辺確率で
割って求めている。
確率で表し直した表
30. 条件付き確率:周辺化
その他、
cX
k=1
p(Bj, Ck|Ai) = p(Bj|Ai)
cX
k=1
p(Ck|Ai, Bj) = 1
も、成り立つ。
1年生 2年生 3年生
合計
女性
C1: 7
C2: 8
C1: 5
C2: 7
C1: 6
C2: 7
40
男性
C1: 10
C2: 12
C1: 11
C2: 9
C1: 10
C2: 8
60
合計 37 32 31 100
B1 B2 B3
A2
A1 15 12 13
32. 全確率の公式
1年生 2年生 3年生
合計
女性 15 12 13 40
男性 22 20 18 60
合計 37 32 31 100
B1 B2 B3
A2
A1
乗法定理と周辺化により下記が成り立つ。
p(Bj) =
aX
i=1
p(Bj, Ai)
=
aX
i=1
p(Bj|Ai)p(Ai)
重要!
= 12/40 x 40/100
+ 20/60 x 60/100
= 12/100 + 20/100
= 32/100
j=2の例)
34. ベイズの定理
p(Ai, Bj) = p(Bj|Ai)p(Ai)
乗法定理に対称性があるので、下記の2つはどちらも
成り立つ。
p(Ai, Bj) = p(Ai|Bj)p(Bj)
よって2つの式をつないで で割ることで
が得られる。これが確率に関するベイズの定理。
p(Ai|Bj) =
p(Bj|Ai)p(Ai)
p(Bj)
p(Ai, Bj) = p(Ai|Bj)p(Bj)
38. ベイズの定理:検診問題
p(A1|B1) =
p(B1|A1)p(A1)
p(B1|A1)p(A1) + p(B1|A2)p(A2)
陽性 陰性
計
病気である
4/1000
* 0.8
4/1000
* 0.2
4/1000
病気でない
996/1000
* 0.1
996/1000
* 0.9
996/1000
B1 B2
A2
A1
病気の人が、陽性になる確率。
事後確率:結果陽性
で、病気にかかって
いる確率。
病気にかかっている
事前確率
病気にかかっていない
事前確率
病気でない人が
陽性になる確率
40. 逆確率
検診問題では
・病気A … 原因
・検診B … 結果
であった。通常の条件付き確率は
p(結果 ¦ 原因)
のように、時間の流れにあった形で利用される。
しかし、ベイズの定理では、時間の流れが逆である
時間の流れ
p(原因 ¦ 結果)
のような「原因の確率」を論じる。
このような事後確率のことを「逆確率」という
41. 独立
p(Ai|Bj) = p(Ai|Bk) (全てのi, j, kに対して)
Bの観察結果によって、Aの確率が影響を受けない。
この時「AとBは互いに独立である」という
例) 性別 Aと、学年 Bは独立ではない。
→ 何故ならば2年生であるとわかっている場合の
女性である確率と、3年生である場合のそれと
で、確率が異なるから。
例) サイコロAとサイコロBの出目は独立。
→ 1つ目のサイコロの目は次の目に影響しない
42. 独立 : 重要な性質
p(Ai|Bj) = p(Ai|Bk)
p(Ai, Bj)
p(Bj)
=
p(Ai, Bk)
p(Bk)
添え字 k で足しあげる
p(Ai, Bj)
bX
k=1
p(Bk) = p(Bj)
bX
k=1
p(Ai, Bk)
p(Ai, Bj)p(Bk) = p(Bj)p(Ai, Bk)
= 1 = p(Ai)
(Bはjでもkでも同じ確率)
43. 独立 : 重要な性質
p(Ai, Bj)
bX
k=1
p(Bk) = p(Bj)
bX
k=1
p(Ai, Bk)
= 1 = p(Ai)
p(Ai, Bj) = p(Ai)p(Bj)
つまり、AとBが独立である場合には、
「同時確率が、個々の確率の積で表現される」
45. 独立 : 重要な性質
p(Ai, Bj) = p(Ai|Bj)p(Bj)
Ai, Bj が独立である時
p(Ai)p(Bj) = p(Ai|Bj)p(Bj)
p(Ai) = p(Ai|Bj)
であるので、
p(B2|A6) = p(B2)
も、A6の影響を受けない形になる。
p(Ai, Bj) = p(Ai)p(Bj)
Bj) = p(Ai)p(Bj)
48. ベイズ更新
前ページの2式の右辺が等しいのでつなげると、
p(A|B, C)p(B, C) = p(B, C|A)p(A)
p(A|B, C) =
p(B, C|A)p(A)
p(B, C)
BとCは独立なので、
p(A|B, C) =
p(B, C|A)p(A)
p(B, C)
p(A|B, C) =
p(B, C|A)p(A)
p(B, C)
p(A|B, C) =
p(B, C|A)p(A)
p(B, C)
p(A|B, C) =
p(B, C|A)p(A)
p(B, C)
p(B|A)p(C|A)p(A)
p(B), p(C)
B, C) =
p(B, C|A)p(A)
p(B, C)
=
p(B, C|A)p(A)
p(B, C)
=
p(B, C|A)p(A)
p(B, C)
p(A|B, C) =
p(B, C|A)p(A)
p(B, C)
p(A|B,C)=
p(B,C|A)p(A)
p(B,C)
p(B|A)p(C|A)p(A)
p(B), p(C)
p(B|A)p(C|A)p(A)
p(B)p(C)
p(B|A)p(C|A)p(A)
p(B), p(C)
p(A|B,C) =
p(B,C|A)p(A)
p(B,C)
p(B|A)p(C|A
p(B), p(C
p(A|B, C) =
p(B, C|A)p(A)
p(B, C)
p(B|A)p(C|A)
p(B)p(C)
49. p(A|B,C)=
p(B,C|A)p(A)
p(B,C)
B|A)p(C|A)p(A)
p(B), p(C)
p(B|A)p(C|A)p(A)
p(B), p(C)
p(A|B,C) =
p(B,C|A)p(A)
p(B,C)
p(B|A)p(C|A)p(A)
p(B), p(C)
(A|B, C) =
p(B, C|A)p(A)
p(B, C)
p(B|A)p(C|A)p(A)
p(B)p(C)
ベイズ更新
p(A|B)
p(A|B) = p(A)⇤
として、これを情報Cに対する
事前分布である、という見方をすると
=
p(C|A)p(A)⇤
p(C)
情報Bが与えられた時のAの事後確率を、新たな
Aの事前確率としてベイズの定理を新情報Cに独
立に適用している。これをベイズ更新という。
50. 迷惑メールフィルタ
あるメール A が、
・迷惑メール A1
・非迷惑メールA2
のどちらであるかを判定する。
メールAには「絶対必勝」「完全無料」「投資指
南」「急騰予想」が含まれていた。
「絶対必勝」が含まれるメールをB1、含まれてい
ないメールをB2とすると
p(B1|A1) = 0.11
p(B1|A2) = 0.01
迷惑メール 非迷惑メール
絶対必勝 0.11 0.01
完全無料 0.12 0.02
投資指南 0.15 0.01
急騰予想 0.13 0.02
表1.3 キーワードがメールに含まれる確率
A1 A2
B1
B2
B3
B4
52. 迷惑メールフィルタ
0.9429 =
0.11 ⇥ 0.60
0.11 ⇥ 0.60 + 0.01 ⇥ (1 0.06)
さらに「完全無料」がメールにあったと判明
0.9429
C) =
p(B, C|A)p(A)
p(B, C)
0.9900 = 0.12⇥0.9429
0.12⇥0.9429
+ 0.01 ⇥ (1 )
0.9900
C) =
p(B, C|A)p(A)
p(B, C)
= 0.15⇥
0.15⇥0.9900
+0.02 ⇥ (1 )
0.9900
0.9993
さらに「投資指南」がメールにあったと判明
さらに「急騰予想」がメールにあったと判明
C) =
p(B, C|A)p(A)
p(B, C)
= 0.99930.13⇥
0.99930.13⇥ 0.9993+0.02 ⇥ (1 )
0.9999
0.9429
53. 迷惑メールフィルタ
0.9429 =
0.11 ⇥ 0.60
0.11 ⇥ 0.60 + 0.01 ⇥ (1 0.06)
さらに「完全無料」がメールにあったと判明
0.9429
C) =
p(B, C|A)p(A)
p(B, C)
0.9900 = 0.12⇥0.9429
0.12⇥0.9429
+ 0.01 ⇥ (1 )
0.9900
C) =
p(B, C|A)p(A)
p(B, C)
= 0.15⇥
0.15⇥0.9900
+0.02 ⇥ (1 )
0.9900
0.9993
さらに「投資指南」がメールにあったと判明
さらに「急騰予想」がメールにあったと判明
C) =
p(B, C|A)p(A)
p(B, C)
= 0.99930.13⇥
0.99930.13⇥ 0.9993+0.02 ⇥ (1 )
0.9999
0.9429
4回のベイズ更新で、迷惑メールではない
という確率が1万分の一以下!
ただし、「絶対必勝」「完全無料」等の単語が含まれるか
否かの確率は互いに独立ではないことに注意。
しかし、近似ではあるが、実践には十分使える
58. 一期一会な事象
例: 天気予報における 「降水確率30%」
客観確率
これまで降水確率 30% が発表された
多数の日を集めて、それらを観察すると
10日のうち平均的に3日は雨が降っていた。
主観確率
まさに今日、雨が降る確率が 30%
その確からしさは10本中3本あたりが入っている
くじと私にとっては全く同じです。仮に賭けを
するならどちらでも構いません。
客観確率で表現できる事象は主観確率で
表現できるが、逆は必ずしも成り立たない。
60. は?
理由不十分の法則:碁石問題
黒 白
赤 3 7
青 4 6
黄 5 5
A1 A2
B1
B2
B3
p(B1|A1) =
p(A1|B1)p(B1)
p(A1|B1)p(B1) + p(A1|B2)p(B2) + p(A1|B3)p(B3)
=
0.3 ⇥ p(B1)
0.3 ⇥ p(B1) + 0.4 ⇥ p(B2) + 0.5 ⇥ p(B3)
p(B1), p(B2), p(B3)壺の選択確率
62. 理由不十分の法則:碁石問題
黒 白
赤 3 7
青 4 6
黄 5 5
A1 A2
B1
B2
B3
p(B1|A1) =
p(A1|B1)p(B1)
p(A1|B1)p(B1) + p(A1|B2)p(B2) + p(A1|B3)p(B3)
=
0.3 ⇥ (1/3)
0.3 ⇥ (1/3) + 0.4 ⇥ (1/3) + 0.5 ⇥ (1/3)
= 0.25
注!「コインの裏表が等確率」という客観確率と、
「理由不十分の原則」によって選択した等確率は
本質的に異なる。
64. p(犯人¦一致)
p(一致¦犯人) = 1
p(一致¦犯人でない) = 1/10000
p(犯人でない) = 1 - p(犯人)
理由不十分の法則:血液鑑定問題
なので、p(犯人)の関数で表すことができる。
=
|B, C) =
p(B, C|A)p(A)
p(B, C)
p(犯人)
(1/10000)(1 - p(犯人)+p(犯人)
=
f( p(犯人) )
65. ケース 事前確率 p(犯人) 事後確率
1 1/2 0.5 99.9900%
2 1/100000 0.0000100000 9.0910%
2 1/10000 0.0001000000 50.0025%
3 1/37000000 0.0000000270 0.0270%
=
p(B, C|A)p(A)
p(B, C)
p(犯人)
(1/10000)(1 - p(犯人)+p(犯人)
理由不十分の法則:血液鑑定問題
ケース1: 理由不十分なので、どちらとも言えない
p(犯人) = 1/2 (ほんとに!?)
ケース2: 日本では10万人に1人が殺人を犯す
p(犯人) = 1/10万
ケース3:首都圏の人口から等確率では?
p(犯人) = 1/3700万
66. ケース 事前確率 p(犯人) 事後確率
1 1/2 0.5 99.9900%
2 1/100000 0.0000100000 9.0910%
2 1/10000 0.0001000000 50.0025%
3 1/37000000 0.0000000270 0.0270%
=
p(B, C|A)p(A)
p(B, C)
p(犯人)
(1/10000)(1 - p(犯人)+p(犯人)
理由不十分の法則:血液鑑定問題
ケース1: 理由不十分なので、どちらとも言えない
p(犯人) = 1/2 (ほんとに!?)
ケース2: 日本では10万人に1人が殺人を犯す
p(犯人) = 1/10万
ケース3:首都圏の人口から等確率では?
p(犯人) = 1/3700万
主観確率による事前確率を使い、事前確率を変
えると、なんでもありで、どんな結果でも
出せてしまう!
結果が恣意的になりそうな時には
ベイズの定理による分析を控えるべき!
67. 事前確率を圧倒するデータ
前述のように、恣意的に確率を操作できてしまうと、
分析として利用できない。
データの量を増やして、事前確率の影響
を事実上ないものにしてしまえば良い。
レオナルド・ジミー・サベッジ
p(A|B, C, D, · · · , H) =
p(B, C, D, · · · , H|A)p(A)
p(B, C, D, · · · , H)
客観的データを増やす! p(A)の影響が小さくなる
68. 事前確率 B C D E F G H
0.01 0.09174312 0.50251256 0.90991811 0.99019705 0.99901098 0.99990101 0.99999010
0.05 0.34482759 0.84033613 0.98135427 0.99810360 0.99981004 0.99998100 0.99999810
0.1 0.52631579 0.91743119 0.99108028 0.99910081 0.99991001 0.99999100 0.99999910
0.2 0.71428571 0.96153846 0.99601594 0.99960016 0.99996000 0.99999600 0.99999960
0.3 0.81081081 0.97719870 0.99767210 0.99976672 0.99997667 0.99999767 0.99999977
0.4 0.86956522 0.98522167 0.99850225 0.99985002 0.99998500 0.99999850 0.99999985
0.5 0.90909091 0.99009901 0.99900100 0.99990001 0.99999000 0.99999900 0.99999990
事前確率を圧倒するデータ
p_A1_list
=
[0.01,
0.05,
0.10,0.20,0.30,
0.40,
0.50]
#
全メールの中の
迷惑メールの割合(事前確率)
p_B_A1
=
1.0/10.
#
迷惑メールには1/10
p_B_A2
=
1.0/100.
#
普通メールには1/100
print
u"|事前確率|B|C|D|E|F|G|H|"
print
u"|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|"
for
p_A1
in
p_A1_list:
p
=
p_A1
print
"|{}".format(p),
for
i
in
range(7):
p
=
(p_B_A1*p)/(p_B_A1*p
+
p_B_A2*(1-‐p))
print
"|
{0:.8f}
".format(p),
print
"|"
https://github.com/matsuken92/Qiita_Contents/blob/master/Bayes_chap_01/Bayes_Statistics_chap.01.ipynb
69. p_A1_list
=
[0.01,
0.05,
0.10,0.20,0.30,
0.40,
0.50]
#
全メールの中の
迷惑メールの割合(事前確率)
p_B_A1
=
1.0/10.
#
迷惑メールには1/10
p_B_A2
=
1.0/100.
#
普通メールには1/100
print
u"|事前確率|B|C|D|E|F|G|H|"
print
u"|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|:-‐-‐-‐-‐-‐:|"
for
p_A1
in
p_A1_list:
p
=
p_A1
print
"|{}".format(p),
for
i
in
range(7):
p
=
(p_B_A1*p)/(p_B_A1*p
+
p_B_A2*(1-‐p))
print
"|
{0:.8f}
".format(p),
print
"|"
事前確率 B C D E F G H
0.01 0.09174312 0.50251256 0.90991811 0.99019705 0.99901098 0.99990101 0.99999010
0.05 0.34482759 0.84033613 0.98135427 0.99810360 0.99981004 0.99998100 0.99999810
0.1 0.52631579 0.91743119 0.99108028 0.99910081 0.99991001 0.99999100 0.99999910
0.2 0.71428571 0.96153846 0.99601594 0.99960016 0.99996000 0.99999600 0.99999960
0.3 0.81081081 0.97719870 0.99767210 0.99976672 0.99997667 0.99999767 0.99999977
0.4 0.86956522 0.98522167 0.99850225 0.99985002 0.99998500 0.99999850 0.99999985
0.5 0.90909091 0.99009901 0.99900100 0.99990001 0.99999000 0.99999900 0.99999990
事前確率を圧倒するデータ
この例の場合、
迷惑メールに多い単語が7つくらいあると
事前確率の影響はほとんどなくなる!
しかし、大量のデータがある場合も
事前確率の主観性・恣意性に関する
警戒は怠ってはならない!
70. 私的分析と公的分析
・私的分析 (private analysis)
… 事後確率の計算を分析者とその仲間で
自らのために行う分析
例:軍関連(暗号解読、砲術)→結果が良ければ
主観的でも構わない
・公的分析 (public analysis)
… 事後確率の計算を論文や報告書、著作を
通じてその知見を社会に還元するための分析
例:科学論文など → 分析者の主観で結論が
変わると困る。
75. 3囚人問題
p(Aa|Bd) =
p(Bd|Aa)p(Aa)
p(Bd|Aa)p(Aa) + p(Bd|Ba)p(Ba) + p(Bd|Ca)p(Ca)
p(Aa) = p(Ba) = p(Ca) = 1/3
p(Bd|Ba) = 0
p(Bd|Aa) = p(Cd|Aa) = 1/2
p(Bd|Ca) = 1
以上より、
p(Aa|Bd) =
1/2 ⇥ 1/3
1/2 ⇥ 1/3 + 0 ⇥ 1/3 + 1 ⇥ 1/3
= 0.5
事前確率:主観確率
条件付き確率:主観確率
第3の使用法!
主観確率同士の積なので危険!