SlideShare a Scribd company logo
1 of 22
Download to read offline
貝氏統計學
BAYESIAN PROBABILITY
JOHNSON CHEN 202211 1
• 原文:いちばん優しいベイズ統計入門
• 佐佐木淳著 台灣─楓葉社出版
從『結果』倒推『原因』的逆向思考法
JOHNSON CHEN 202211 2
• 托馬斯·貝葉斯 (Thomas Bayes) 是18世紀英國數學家。1742年成為英國皇家
學會會員。貝葉斯以其在機率論領域的研究聞名於世,他提出的貝氏定理對
於現代機率論和數理統計的發展有重要的影響。
• 他的『條件機率』(Conditional Probability) 理論在講究大數據資料分析的
現代有著很廣泛的應用。特別是針對沒有完整事前資料, 也可以在假設的同時
進行有意義的討論,在獲取新資訊的時候更新機率。同時,貝氏統計也可以
用在根據結果尋找原因,根據未來尋找過去等方面的應用。作為一個普遍簡
單的原理,貝氏定理對於所有機率的解釋是非常有效的,只是我們必須提醒
自己一些提防主觀邏輯思考傾向上的限制迷思誤判,以及相信了可能被以偏
蓋全的謬論誤導的結果。
傳統統計學 vs 貝氏統計
JOHNSON CHEN 202211 3
機率論
統計學
傳統統計學
頻率論統計學
貝氏理論
敘述統計 推論統計 貝氏統計 推論統計
Probability
Statistics
Descriptive Statistics Inferential Statistics
• 在所有的統計學裡,如果沒有收集資
料(Data) 就無法進行計算或預測。
• 推論統計是從母體中抽出樣本,計算
出樣本的平均數 (Average) 和變異數
(Variables) , 用來推測母體本身的特性
和一些有關母體的相關敘述。
• 檢定就是從母體中抽出的樣本統計量
的假設是否正確進行統計學上的判定。
• 敘述統計學
將資料整理
成數值,表
格,圖表等,
以用來掌握
數據的特徵
統計用語和概念複習─1
JOHNSON CHEN 202211 4
• 如今應用於各總場合的統計學,已然成為了我們日常生
活中不可或缺而且實用的一門知識。我們的生活中有各
式各樣的資料;例如『電視收視率』,『考試平均分
數』,『降雨機率』,『收入中間數』等…..
• 『資料』指的是透過數據,實驗或觀察等方式,所得到
的事實或者科學上的數值。『統計』就是利用這些資料,
掌握,分析現狀,並且連接到未來的預測等動作。
• 母體 (Population) 是
我們所希望調查對象
的集合
• 從母體抽出一部份
的是『樣本』
• 抽出樣本的方法如果是公平的,客觀的,
科學的,不偏倚的方法就叫做『隨機抽樣』
(Random Sampling)
• 敘述統計(Descriptive Statistics): 對於母體全體的一些
統計敘述,例如平均,中間數,總和,偏差值,選舉結果等。
• 推論統計(Inferential Statistics): 借助抽樣調查 (因為從
母體收集完整數據很困難),從局部推斷總體,以幫助我們
對不肯定的事物做出決策。並且從建立假設開始,接著檢視
這些資料是否與假設一致?
統計用語和概念複習─2
JOHNSON CHEN 202211 5
數據代表值相關
• 平均值 (Mean, Average)
• 中位數 (Median)-即是有一半數值大於中位數,而另一半數值小於中位數
• 眾數 (Mode)- 出現最多的數值
• 最大值 (Maximum)
• 最小值 (Minimum)
• 異常值/離群值 (Outlier)
數據的分布散離程度代表相關
• 變異數 (Variance)-一組數字與其平均值之間的距離的度量
• 標準差 (Standard Deviation)-一組數值自平均值分散開來的程度的一種測量
一般機率 vs 條件機率
Probability Conditional Probability
JOHNSON CHEN 202211 6
• 機率(中國大陸/香港稱為概率,又稱為或然率),
是對隨機事件發生之可能性的度量機率的值是一個
在0到1之間的實數,也常以百分數來表示。一個不
可能事件其機率值為0,而確定事件其機率值則為1。
• 就是事件A在事件B發生的條件下發生的概率。條件概率表示為P(A|B),
讀作「A在B發生的條件下發生的概率」。
• 機率的分母不是全部的事件,而是事件的一部份。
• 條件機率很容易受到『直覺』的欺騙。因為條件機率是繁分數,感覺很複雜。
• 在貝氏定理裡,事件發生的機率是不變的,但是條件機率是會改變的。
貝氏條件定理公式 (Bayes Conditional Probability Theorem)
JOHNSON CHEN 202211 7
• 在已知一些條件下,事件A
在事件B已發生的條件下發
生的機率,與事件B在事件
A已發生的條件下發生的機
率是不一樣的。然而,這
兩者是有確定的關係的。
• 貝氏定理就是這種關係的
陳述。貝氏定理公式的一
個應用就是透過已知的三
個機率而推出第四個機率。
這個在處理不是單一變數
(更接近我們實際生活)
的情境裡特別的實用。
構成貝氏定理的各種機率名稱
JOHNSON CHEN 202211 8
事後機率
事前機率
概似度
邊際概似度
聯合機率
EX:檢疫策略制訂的基準計算
條件機率的公式
貝氏定理
B條件的機率
A 發生時,B 的機率
B 發生時,A 發生的機率
貝氏更新概念 機率會隨著情況變化改變
JOHNSON CHEN 202211 9
9
X 5
1 8
答對機率:0.40
9
X 5
1 8 5
答對機率:0.55
9
X 5
1 8 5
答對機率:0.70
7 9
X 5
答對機率:0.80
3 7
1 8 5
加入提示1
9
X 5
答對機率:0.95
3 7
4 1 8 5
加入提示4
加入提示2 加入提示3
9
X 5
全部答對!
2 3 7
4 6 1 8 5
事前機率 事後機率
貝氏定理的理解例題-1
學生遊戲主機/家用PC持有調查
JOHNSON CHEN 202211 10
某學校做了以下有關於家用電腦和遊戲主機的持有率調查,並且請了三個調查同學
幫忙得出了以下的結果:
• 同時家裡有家用電腦和遊戲主機的人佔了 30%
• 持有遊戲主機的人佔了 50% P(A),其中同時擁有家用電腦的人有 60% P(B|A)
• 持有個人電腦的人佔60% P(B),其中持有遊戲主機的人佔50% P(A|B)
假設
Event 事件A : 持有遊戲主機的人
Event 事件B:持有個人電腦的人
A: 遊戲主機 &
B:個人電腦
B: 只有
個人電腦
P(B)=
A:只有
遊戲主機
P(A)
兩種都沒有
0.5 = 0.3/0.6 = (0.6*0.5)/0.6
根據貝氏定理這些都是相等的
貝氏定理的理解例題-2
該不該帶雨傘出門?
JOHNSON CHEN 202211 11
• 有位負責前往A,B兩個區域的推銷員。這位推銷員去區域A的機率是 0.6, 去到區域B的機率是0.4.
• 假設業務員根據氣象預報得知,區域A 下雨的機率是 0.7, 區域B 下雨的機率是 0.5
事件A:前往區域 A 推銷
事件B:前往區域 B 推銷
事件C:下雨
• P (A) 前往區域 A 推銷的機率 = 0.6
• P (B) 前往區域 B 推銷的機率=0.4
• P (C|A) 前往區域A 遇到下雨的機率= 0.7
• P (C|B) 前往區域B 遇到下雨的機率= 0.5
我們反過來想知道
1. 下雨的時候,業務員在A 區的機率 P (A|C) ? =0.7*0.6/0.62= 0.67
2. 下雨的時候,業務員在B 區的機率 P (B|C) ? =0.5*0.4/0.62= 0.32
• P (C)= (0.6 X 0.7) + (0.4 X 0.5) = 0.62
• 利用貝氏定理 P(A|C)= P(C|A)*P(A)/P(C)
貝氏定理的理解例題-3
搜尋馬航 MH370 (2014)
JOHNSON CHEN 202211 12
• 2014年3月8日,馬來西亞航空由吉隆坡前往北京的
MH370號班機從吉隆坡國際機場起飛,機上共載有239
人,當中大部份乘客為中國公民。該班機原定計劃於北
京時間(UTC+08:00)6:30抵達北京首都國際機場,但
起飛後不足一小時便在馬來西亞與越南海域的交界處、
土珠島以南約140海里及哥打巴魯東北東約90海里處與
大馬梳邦空管中心(Air Traffic Control Centre Subang)
失去聯繫。
• 而後序的搜尋便在飛機失聯後數小時內,在世界的關注
和多國的聯合協助下很快的開展起來。其中對於收救範
圍的機率和界定,就大量的運用了貝氏定理作為一個判
斷的準則
馬航MH370的搜尋 (簡化的範例)
JOHNSON CHEN 202211 13
我們為了分析所做的一些事件定義和假設
• 事件 A:飛機墜落於區域 A
• 事件 B:飛機墜落於區域 B
• 事件 C:飛機墜落於區域 C
• 事件 D:飛機墜落於區域 D
• 事件 a : 區域 A 找不到飛機的蹤跡
• 事件 b : 區域 B 找不到飛機的蹤跡
• 事件 c : 區域 C 找不到飛機的蹤跡
• 事件 d : 區域 D 找不到飛機的蹤跡
飛機墜落在某個的機率 (假設)
區域 A B C D
機率 40% 30% 10% 20%
馬航MH370的搜尋 : 第二步驟
JOHNSON CHEN 202211 14
找到/找不到飛機的機率
區域 A B C D
找到的機率 20% 40% 10% 30%
找不到的機率* a=80% b=60% c=90% d=70%
*主觀設定的先前假設
X
• 各個區域又因為海像,離岸距離,空域條件的不同,
有著不同的找到和找不到的機率如下(假設條件),
例如區域 B 可能有必較好的後援支持或更多國家幫助
協力,於是就比 區域C,D,A 找到的機會大得多。
馬航MH370的搜尋:各種情況事件的機率
JOHNSON CHEN 202211 15
場景/事件 符號 機率
飛機墜落於區域 A P(A) 40%
飛機墜落於區域 B P(B) 30%
飛機墜落於區域 C P(C) 10%
飛機墜落於區域 D P(D) 20%
飛機墜落於A 但是卻找不到 P(a|A) 80%
飛機墜落於B 但是卻找不到 P(b|B) 60%
飛機墜落於C 但是卻找不到 P(c|C) 90%
飛機墜落於D 但是卻找不到 P(d|D) 70%
• 有了這些假設和資訊,搜救團
對很可能希望知道,假設區域
A 找不到飛機?那飛機真正墜
落於區域A 的機率 %究竟有多
大?是不是值得再繼續搜尋?
• 這個問題就可以用貝氏定理來
計算和解答。
馬航MH370的搜尋故事
假設區域A 找不到飛機?那飛機真正墜落於區域A 的機率 %究竟有多大?
JOHNSON CHEN 202211 16
• 我們判斷有兩情形飛機會找不到 P(a)
1. 飛機墜落於A 區,但是搜救團對找不到
2. 飛機沒有墜落於 A 區,所以找不到
P(a)= (0.4 x 0.8) + (1 - 0.4) x 1 = 0.92
第一種情境 第二種情境
• 這就是飛機墜落於區域A 的『事後機率』。
• 接下來搜救團隊的工作就是計算剩下的三
個區域的事後機率。這個可以從減去我們
所知道的 P (A|a)= 0.348 以後按照各自的
事後機率分配計算得出。
馬航MH370的搜尋故事
假設區域A 找不到飛機?那飛機真正墜落於其他區域機率 %究竟有多大?
JOHNSON CHEN 202211 17
馬航 MH370 墜落
區域 A B C D
事前機率 P(N) 40% 30% 10% 20%
事後機率 P(N|n) 34.8% 1-0.348
馬航 MH370 墜落
區域 A B C D
事前機率 P(N) 40% 30% 10% 20%
事後機率 P(N|n) 34.8% P(B|a)
事後機率結果總結
我們確認了區域A 是搜
索最有機會找到的區域
貝氏更新
如果區域A再找不到的話,可以怎麼辦?
JOHNSON CHEN 202211 18
• 我們現在已經計算出來了第一次的事後概率(飛機在A 區
域還是沒有找到,而在其他區域的可能性?),這個概率
可以用在我們作為『第二次計算』的事先概率的基礎。
用新的數值再一次計算我們的 P(A|a)
新的
P(A)
P(B)
P(C)
P(D)
第二次搜救優先順序
區域 A B C D
事前機率 34.8% 32.6% 10.9% 21.7%
事後機率 2 29.9% 35.1% 11.7% 23.3%
結論:第二次搜尋
可以改變策略朝B區
域進行
- 在貝氏定理裡,事件發生的機率是不變的,但是『條件機率』是會改變的。
**第二次的結果就與我們的『直覺』不同
延伸閱讀:
用貝氏定理檢驗普篩的精密性-1
JOHNSON CHEN 202211 19
• 許多國家對於新冠病毒防疫的策略和時間點的調整判斷其實有充分的運用到了貝氏定理。這些公共衛生防
疫專家與統計學家們,就新冠病毒普篩的偽陽性、偽陰性問題以實際數據進行了分析來決定那個當下最適
合的防疫和篩檢政策。
• 首先他們將普篩假想對象分為兩種不同人口:
1. 呼吸道症狀就醫人口
2. 無症狀人口。
• 再就每一種假想對象依據疫情提出兩種盛行率的估計:極
大值、合理值。如此,假想對象×盛行率一共有四種組合。
然後再對每一種組合分別提出關於PCR(核酸檢測)和快
篩兩種檢測工具精密性的分析。
同時我們也有客觀科學統計根據:
• PCR:特異性=0.9999,敏感性=0.95
• 快篩:特異性=0.99,敏感性=0.75
• 醫檢學中的「敏感性」是真正帶原者之中真陽性的比
例。把比例等同機率,則敏感性就是當受檢者是真帶
原者時,採檢結果為陽性的機率:
• 敏感性=Pr(採檢為陽性|受檢者是真正帶原者)
• 因此,採檢為陽性之中真陽性的比例,轉換成機率的
概念,便是敏感性的反機率。這個反機率在數據科學
有一個專門的名稱,叫做「精密性」(precision)。
• 精密性=Pr(受檢者真正帶原|採檢為陽性者)
盛行率低低時期做PCR 和快
篩是沒有意義的
延伸閱讀:
用貝氏定理檢驗普篩的精密性-2
JOHNSON CHEN 202211 20
• 貝氏定理的2D可視化圖示說明。圖中闡
釋了事件A、事件B以及他們之間各種機
率組合的關係。
機率
*實際防疫中心的統計模型和分類更為複雜
延伸閱讀:
用貝氏定理檢驗普篩的精密性-3
JOHNSON CHEN 202211 21
• 圖二是把圖一的X橫軸延伸到π=0.1 (假設勝行率大幅提高)從圖中可以看出:當盛行
率的合理估計達到π=0.01時,PCR的精密性就很接近99%了。只是如果普檢要仰賴快
篩,則43%的精密性還是有所不足。但是當合理懷疑某對象受感染的先驗機率達到
π=0.1時,圖二顯示PCR的精密性幾乎是100%,而快篩的精密性也近乎90%了。
• 這也是許多國家地區,在意識到受感染的先驗機率(盛行率)已經很高的時後,反而
使用快篩作為防疫兼顧有效性和成本的第一步。
延伸閱讀:
用貝氏定理檢驗普篩的精密性-4
JOHNSON CHEN 202211 22
• 貝氏定理有一個所謂『先驗機率』的概念。這個先驗機率在COVID 疫情分析裡,可以被理解為專家
學者所認定的疫情盛行率 (Prevalence Rate) 的假設 。
• 因為盛行率是一個假設,所以它就不是客觀的經驗事實。 盛行先驗機率可以用先前 (例如別的地區
或人口)的數據,但它終究基本上反映了主觀的「信仰」(belief)。
• 而在公共衛生學和醫學檢測,這個「信仰」,除了醫學文獻、臨床經驗外,它通常還要靠著問診、疫
調等專業程序來建立,也就是醫檢人員必須要評估受採檢對象的旅遊史、接觸史、疾病史、健康狀況、
有否相關症狀、乃至於飲食作息等等資訊才能建立。 換句話說,先驗機率的建立與受採檢的族群母體
特性與脈絡息息相關。採檢對象的脈絡不同,先驗機率也會不同。不同國家地區也會有不同的假設。
• 精密性低的癥結不是在於採檢工具 (PCR vs 快篩)或者是採樣品質 (敏感性 vs特異性)。防疫指揮
中心所使用的PCR和快篩的品質都是極佳的工具,只是不同的防疫和社會成本考量。而決定什麼時候?
什麼人群?要進行快篩或PCR?其實是取決在於我們所設定的假設。而對廣大對象在缺乏足夠脈絡,
問診,疫調資訊而做無厘頭的全面採檢,終究導致了精密性低落到幾乎為0,只是浪費醫療資源。
• 結論:貝氏定理告訴我們,在疫情不同的盛行期(疫苗的供應,普及率,病
毒的變化),動態且密切的調整篩檢策略,工具,方式是有必要的。

More Related Content

What's hot

SPSS教育訓練-聯合分析-三星統計夏恩顧問-20130824
SPSS教育訓練-聯合分析-三星統計夏恩顧問-20130824SPSS教育訓練-聯合分析-三星統計夏恩顧問-20130824
SPSS教育訓練-聯合分析-三星統計夏恩顧問-20130824
Beckett Hsieh
 

What's hot (20)

Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
IE手法-愚巧法、防錯法 Fool-Proofing
IE手法-愚巧法、防錯法 Fool-ProofingIE手法-愚巧法、防錯法 Fool-Proofing
IE手法-愚巧法、防錯法 Fool-Proofing
 
情報検索の基礎
情報検索の基礎情報検索の基礎
情報検索の基礎
 
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
 
[台灣人工智慧學校] 人工智慧技術發展與應用
[台灣人工智慧學校] 人工智慧技術發展與應用[台灣人工智慧學校] 人工智慧技術發展與應用
[台灣人工智慧學校] 人工智慧技術發展與應用
 
資料視覺化 (科智企業股份有限公司 內訓課程)
資料視覺化 (科智企業股份有限公司 內訓課程)資料視覺化 (科智企業股份有限公司 內訓課程)
資料視覺化 (科智企業股份有限公司 內訓課程)
 
SPSS教育訓練-聯合分析-三星統計夏恩顧問-20130824
SPSS教育訓練-聯合分析-三星統計夏恩顧問-20130824SPSS教育訓練-聯合分析-三星統計夏恩顧問-20130824
SPSS教育訓練-聯合分析-三星統計夏恩顧問-20130824
 
統計的力量-SPSS的25種方法實戰2014版-三星統計張偉豪20141119
統計的力量-SPSS的25種方法實戰2014版-三星統計張偉豪20141119統計的力量-SPSS的25種方法實戰2014版-三星統計張偉豪20141119
統計的力量-SPSS的25種方法實戰2014版-三星統計張偉豪20141119
 
[DL輪読会]Fast and Slow Learning of Recurrent Independent Mechanisms
[DL輪読会]Fast and Slow Learning of Recurrent Independent Mechanisms[DL輪読会]Fast and Slow Learning of Recurrent Independent Mechanisms
[DL輪読会]Fast and Slow Learning of Recurrent Independent Mechanisms
 
Real-time personalized recommendation using embedding
Real-time personalized recommendation using embeddingReal-time personalized recommendation using embedding
Real-time personalized recommendation using embedding
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
精實生產的實踐 Lean Production
精實生產的實踐 Lean Production精實生產的實踐 Lean Production
精實生產的實踐 Lean Production
 
Group normalization
Group normalizationGroup normalization
Group normalization
 
大數據的基本概念(上)
大數據的基本概念(上)大數據的基本概念(上)
大數據的基本概念(上)
 
公開鍵暗号(3): 離散対数問題
公開鍵暗号(3): 離散対数問題公開鍵暗号(3): 離散対数問題
公開鍵暗号(3): 離散対数問題
 
マーク付き点過程
マーク付き点過程マーク付き点過程
マーク付き点過程
 
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
 

More from Johnson Gmail

猶太人的智慧經典 塔木德 Talmud
猶太人的智慧經典 塔木德 Talmud猶太人的智慧經典 塔木德 Talmud
猶太人的智慧經典 塔木德 Talmud
Johnson Gmail
 
開發你的潛在領導力 Titleless Leadership
開發你的潛在領導力 Titleless Leadership開發你的潛在領導力 Titleless Leadership
開發你的潛在領導力 Titleless Leadership
Johnson Gmail
 
樂於委身 走進職場神學的世界 Live, Work and Create
樂於委身 走進職場神學的世界 Live, Work and Create樂於委身 走進職場神學的世界 Live, Work and Create
樂於委身 走進職場神學的世界 Live, Work and Create
Johnson Gmail
 

More from Johnson Gmail (20)

雜訊 THE NOISE.pdf
雜訊 THE NOISE.pdf雜訊 THE NOISE.pdf
雜訊 THE NOISE.pdf
 
意念使用手冊.pdf
意念使用手冊.pdf意念使用手冊.pdf
意念使用手冊.pdf
 
身心防彈術.pdf
身心防彈術.pdf身心防彈術.pdf
身心防彈術.pdf
 
日本佛教史.pdf
日本佛教史.pdf日本佛教史.pdf
日本佛教史.pdf
 
砍掉成本 Cost Chop Chop
砍掉成本 Cost Chop Chop砍掉成本 Cost Chop Chop
砍掉成本 Cost Chop Chop
 
財務自由的人生 FIRE
財務自由的人生 FIRE財務自由的人生 FIRE
財務自由的人生 FIRE
 
精準訂價
精準訂價精準訂價
精準訂價
 
看穿商業價值的金融理論
看穿商業價值的金融理論看穿商業價值的金融理論
看穿商業價值的金融理論
 
職場倫理 簡體版
職場倫理 簡體版職場倫理 簡體版
職場倫理 簡體版
 
番茄工作法
番茄工作法番茄工作法
番茄工作法
 
猶太人的智慧經典 塔木德 Talmud
猶太人的智慧經典 塔木德 Talmud猶太人的智慧經典 塔木德 Talmud
猶太人的智慧經典 塔木德 Talmud
 
Google 工作不累累
Google 工作不累累Google 工作不累累
Google 工作不累累
 
開發你的潛在領導力 Titleless Leadership
開發你的潛在領導力 Titleless Leadership開發你的潛在領導力 Titleless Leadership
開發你的潛在領導力 Titleless Leadership
 
量子領導力 Quantum leadership
量子領導力 Quantum leadership量子領導力 Quantum leadership
量子領導力 Quantum leadership
 
Algorithms that changed the future
Algorithms that changed the futureAlgorithms that changed the future
Algorithms that changed the future
 
作惡的執照. License to be Bad
作惡的執照. License to be Bad作惡的執照. License to be Bad
作惡的執照. License to be Bad
 
Millionaire in you
Millionaire in youMillionaire in you
Millionaire in you
 
樂於委身 走進職場神學的世界 Live, Work and Create
樂於委身 走進職場神學的世界 Live, Work and Create樂於委身 走進職場神學的世界 Live, Work and Create
樂於委身 走進職場神學的世界 Live, Work and Create
 
680 words in target language italiano
680 words in target language italiano680 words in target language italiano
680 words in target language italiano
 
680 words in target language japanese
680 words in target language japanese680 words in target language japanese
680 words in target language japanese
 

簡易貝氏理論.pdf

  • 1. 貝氏統計學 BAYESIAN PROBABILITY JOHNSON CHEN 202211 1 • 原文:いちばん優しいベイズ統計入門 • 佐佐木淳著 台灣─楓葉社出版
  • 2. 從『結果』倒推『原因』的逆向思考法 JOHNSON CHEN 202211 2 • 托馬斯·貝葉斯 (Thomas Bayes) 是18世紀英國數學家。1742年成為英國皇家 學會會員。貝葉斯以其在機率論領域的研究聞名於世,他提出的貝氏定理對 於現代機率論和數理統計的發展有重要的影響。 • 他的『條件機率』(Conditional Probability) 理論在講究大數據資料分析的 現代有著很廣泛的應用。特別是針對沒有完整事前資料, 也可以在假設的同時 進行有意義的討論,在獲取新資訊的時候更新機率。同時,貝氏統計也可以 用在根據結果尋找原因,根據未來尋找過去等方面的應用。作為一個普遍簡 單的原理,貝氏定理對於所有機率的解釋是非常有效的,只是我們必須提醒 自己一些提防主觀邏輯思考傾向上的限制迷思誤判,以及相信了可能被以偏 蓋全的謬論誤導的結果。
  • 3. 傳統統計學 vs 貝氏統計 JOHNSON CHEN 202211 3 機率論 統計學 傳統統計學 頻率論統計學 貝氏理論 敘述統計 推論統計 貝氏統計 推論統計 Probability Statistics Descriptive Statistics Inferential Statistics • 在所有的統計學裡,如果沒有收集資 料(Data) 就無法進行計算或預測。 • 推論統計是從母體中抽出樣本,計算 出樣本的平均數 (Average) 和變異數 (Variables) , 用來推測母體本身的特性 和一些有關母體的相關敘述。 • 檢定就是從母體中抽出的樣本統計量 的假設是否正確進行統計學上的判定。 • 敘述統計學 將資料整理 成數值,表 格,圖表等, 以用來掌握 數據的特徵
  • 4. 統計用語和概念複習─1 JOHNSON CHEN 202211 4 • 如今應用於各總場合的統計學,已然成為了我們日常生 活中不可或缺而且實用的一門知識。我們的生活中有各 式各樣的資料;例如『電視收視率』,『考試平均分 數』,『降雨機率』,『收入中間數』等….. • 『資料』指的是透過數據,實驗或觀察等方式,所得到 的事實或者科學上的數值。『統計』就是利用這些資料, 掌握,分析現狀,並且連接到未來的預測等動作。 • 母體 (Population) 是 我們所希望調查對象 的集合 • 從母體抽出一部份 的是『樣本』 • 抽出樣本的方法如果是公平的,客觀的, 科學的,不偏倚的方法就叫做『隨機抽樣』 (Random Sampling) • 敘述統計(Descriptive Statistics): 對於母體全體的一些 統計敘述,例如平均,中間數,總和,偏差值,選舉結果等。 • 推論統計(Inferential Statistics): 借助抽樣調查 (因為從 母體收集完整數據很困難),從局部推斷總體,以幫助我們 對不肯定的事物做出決策。並且從建立假設開始,接著檢視 這些資料是否與假設一致?
  • 5. 統計用語和概念複習─2 JOHNSON CHEN 202211 5 數據代表值相關 • 平均值 (Mean, Average) • 中位數 (Median)-即是有一半數值大於中位數,而另一半數值小於中位數 • 眾數 (Mode)- 出現最多的數值 • 最大值 (Maximum) • 最小值 (Minimum) • 異常值/離群值 (Outlier) 數據的分布散離程度代表相關 • 變異數 (Variance)-一組數字與其平均值之間的距離的度量 • 標準差 (Standard Deviation)-一組數值自平均值分散開來的程度的一種測量
  • 6. 一般機率 vs 條件機率 Probability Conditional Probability JOHNSON CHEN 202211 6 • 機率(中國大陸/香港稱為概率,又稱為或然率), 是對隨機事件發生之可能性的度量機率的值是一個 在0到1之間的實數,也常以百分數來表示。一個不 可能事件其機率值為0,而確定事件其機率值則為1。 • 就是事件A在事件B發生的條件下發生的概率。條件概率表示為P(A|B), 讀作「A在B發生的條件下發生的概率」。 • 機率的分母不是全部的事件,而是事件的一部份。 • 條件機率很容易受到『直覺』的欺騙。因為條件機率是繁分數,感覺很複雜。 • 在貝氏定理裡,事件發生的機率是不變的,但是條件機率是會改變的。
  • 7. 貝氏條件定理公式 (Bayes Conditional Probability Theorem) JOHNSON CHEN 202211 7 • 在已知一些條件下,事件A 在事件B已發生的條件下發 生的機率,與事件B在事件 A已發生的條件下發生的機 率是不一樣的。然而,這 兩者是有確定的關係的。 • 貝氏定理就是這種關係的 陳述。貝氏定理公式的一 個應用就是透過已知的三 個機率而推出第四個機率。 這個在處理不是單一變數 (更接近我們實際生活) 的情境裡特別的實用。
  • 8. 構成貝氏定理的各種機率名稱 JOHNSON CHEN 202211 8 事後機率 事前機率 概似度 邊際概似度 聯合機率 EX:檢疫策略制訂的基準計算 條件機率的公式 貝氏定理 B條件的機率 A 發生時,B 的機率 B 發生時,A 發生的機率
  • 9. 貝氏更新概念 機率會隨著情況變化改變 JOHNSON CHEN 202211 9 9 X 5 1 8 答對機率:0.40 9 X 5 1 8 5 答對機率:0.55 9 X 5 1 8 5 答對機率:0.70 7 9 X 5 答對機率:0.80 3 7 1 8 5 加入提示1 9 X 5 答對機率:0.95 3 7 4 1 8 5 加入提示4 加入提示2 加入提示3 9 X 5 全部答對! 2 3 7 4 6 1 8 5 事前機率 事後機率
  • 10. 貝氏定理的理解例題-1 學生遊戲主機/家用PC持有調查 JOHNSON CHEN 202211 10 某學校做了以下有關於家用電腦和遊戲主機的持有率調查,並且請了三個調查同學 幫忙得出了以下的結果: • 同時家裡有家用電腦和遊戲主機的人佔了 30% • 持有遊戲主機的人佔了 50% P(A),其中同時擁有家用電腦的人有 60% P(B|A) • 持有個人電腦的人佔60% P(B),其中持有遊戲主機的人佔50% P(A|B) 假設 Event 事件A : 持有遊戲主機的人 Event 事件B:持有個人電腦的人 A: 遊戲主機 & B:個人電腦 B: 只有 個人電腦 P(B)= A:只有 遊戲主機 P(A) 兩種都沒有 0.5 = 0.3/0.6 = (0.6*0.5)/0.6 根據貝氏定理這些都是相等的
  • 11. 貝氏定理的理解例題-2 該不該帶雨傘出門? JOHNSON CHEN 202211 11 • 有位負責前往A,B兩個區域的推銷員。這位推銷員去區域A的機率是 0.6, 去到區域B的機率是0.4. • 假設業務員根據氣象預報得知,區域A 下雨的機率是 0.7, 區域B 下雨的機率是 0.5 事件A:前往區域 A 推銷 事件B:前往區域 B 推銷 事件C:下雨 • P (A) 前往區域 A 推銷的機率 = 0.6 • P (B) 前往區域 B 推銷的機率=0.4 • P (C|A) 前往區域A 遇到下雨的機率= 0.7 • P (C|B) 前往區域B 遇到下雨的機率= 0.5 我們反過來想知道 1. 下雨的時候,業務員在A 區的機率 P (A|C) ? =0.7*0.6/0.62= 0.67 2. 下雨的時候,業務員在B 區的機率 P (B|C) ? =0.5*0.4/0.62= 0.32 • P (C)= (0.6 X 0.7) + (0.4 X 0.5) = 0.62 • 利用貝氏定理 P(A|C)= P(C|A)*P(A)/P(C)
  • 12. 貝氏定理的理解例題-3 搜尋馬航 MH370 (2014) JOHNSON CHEN 202211 12 • 2014年3月8日,馬來西亞航空由吉隆坡前往北京的 MH370號班機從吉隆坡國際機場起飛,機上共載有239 人,當中大部份乘客為中國公民。該班機原定計劃於北 京時間(UTC+08:00)6:30抵達北京首都國際機場,但 起飛後不足一小時便在馬來西亞與越南海域的交界處、 土珠島以南約140海里及哥打巴魯東北東約90海里處與 大馬梳邦空管中心(Air Traffic Control Centre Subang) 失去聯繫。 • 而後序的搜尋便在飛機失聯後數小時內,在世界的關注 和多國的聯合協助下很快的開展起來。其中對於收救範 圍的機率和界定,就大量的運用了貝氏定理作為一個判 斷的準則
  • 13. 馬航MH370的搜尋 (簡化的範例) JOHNSON CHEN 202211 13 我們為了分析所做的一些事件定義和假設 • 事件 A:飛機墜落於區域 A • 事件 B:飛機墜落於區域 B • 事件 C:飛機墜落於區域 C • 事件 D:飛機墜落於區域 D • 事件 a : 區域 A 找不到飛機的蹤跡 • 事件 b : 區域 B 找不到飛機的蹤跡 • 事件 c : 區域 C 找不到飛機的蹤跡 • 事件 d : 區域 D 找不到飛機的蹤跡 飛機墜落在某個的機率 (假設) 區域 A B C D 機率 40% 30% 10% 20%
  • 14. 馬航MH370的搜尋 : 第二步驟 JOHNSON CHEN 202211 14 找到/找不到飛機的機率 區域 A B C D 找到的機率 20% 40% 10% 30% 找不到的機率* a=80% b=60% c=90% d=70% *主觀設定的先前假設 X • 各個區域又因為海像,離岸距離,空域條件的不同, 有著不同的找到和找不到的機率如下(假設條件), 例如區域 B 可能有必較好的後援支持或更多國家幫助 協力,於是就比 區域C,D,A 找到的機會大得多。
  • 15. 馬航MH370的搜尋:各種情況事件的機率 JOHNSON CHEN 202211 15 場景/事件 符號 機率 飛機墜落於區域 A P(A) 40% 飛機墜落於區域 B P(B) 30% 飛機墜落於區域 C P(C) 10% 飛機墜落於區域 D P(D) 20% 飛機墜落於A 但是卻找不到 P(a|A) 80% 飛機墜落於B 但是卻找不到 P(b|B) 60% 飛機墜落於C 但是卻找不到 P(c|C) 90% 飛機墜落於D 但是卻找不到 P(d|D) 70% • 有了這些假設和資訊,搜救團 對很可能希望知道,假設區域 A 找不到飛機?那飛機真正墜 落於區域A 的機率 %究竟有多 大?是不是值得再繼續搜尋? • 這個問題就可以用貝氏定理來 計算和解答。
  • 16. 馬航MH370的搜尋故事 假設區域A 找不到飛機?那飛機真正墜落於區域A 的機率 %究竟有多大? JOHNSON CHEN 202211 16 • 我們判斷有兩情形飛機會找不到 P(a) 1. 飛機墜落於A 區,但是搜救團對找不到 2. 飛機沒有墜落於 A 區,所以找不到 P(a)= (0.4 x 0.8) + (1 - 0.4) x 1 = 0.92 第一種情境 第二種情境 • 這就是飛機墜落於區域A 的『事後機率』。 • 接下來搜救團隊的工作就是計算剩下的三 個區域的事後機率。這個可以從減去我們 所知道的 P (A|a)= 0.348 以後按照各自的 事後機率分配計算得出。
  • 17. 馬航MH370的搜尋故事 假設區域A 找不到飛機?那飛機真正墜落於其他區域機率 %究竟有多大? JOHNSON CHEN 202211 17 馬航 MH370 墜落 區域 A B C D 事前機率 P(N) 40% 30% 10% 20% 事後機率 P(N|n) 34.8% 1-0.348 馬航 MH370 墜落 區域 A B C D 事前機率 P(N) 40% 30% 10% 20% 事後機率 P(N|n) 34.8% P(B|a) 事後機率結果總結 我們確認了區域A 是搜 索最有機會找到的區域
  • 18. 貝氏更新 如果區域A再找不到的話,可以怎麼辦? JOHNSON CHEN 202211 18 • 我們現在已經計算出來了第一次的事後概率(飛機在A 區 域還是沒有找到,而在其他區域的可能性?),這個概率 可以用在我們作為『第二次計算』的事先概率的基礎。 用新的數值再一次計算我們的 P(A|a) 新的 P(A) P(B) P(C) P(D) 第二次搜救優先順序 區域 A B C D 事前機率 34.8% 32.6% 10.9% 21.7% 事後機率 2 29.9% 35.1% 11.7% 23.3% 結論:第二次搜尋 可以改變策略朝B區 域進行 - 在貝氏定理裡,事件發生的機率是不變的,但是『條件機率』是會改變的。 **第二次的結果就與我們的『直覺』不同
  • 19. 延伸閱讀: 用貝氏定理檢驗普篩的精密性-1 JOHNSON CHEN 202211 19 • 許多國家對於新冠病毒防疫的策略和時間點的調整判斷其實有充分的運用到了貝氏定理。這些公共衛生防 疫專家與統計學家們,就新冠病毒普篩的偽陽性、偽陰性問題以實際數據進行了分析來決定那個當下最適 合的防疫和篩檢政策。 • 首先他們將普篩假想對象分為兩種不同人口: 1. 呼吸道症狀就醫人口 2. 無症狀人口。 • 再就每一種假想對象依據疫情提出兩種盛行率的估計:極 大值、合理值。如此,假想對象×盛行率一共有四種組合。 然後再對每一種組合分別提出關於PCR(核酸檢測)和快 篩兩種檢測工具精密性的分析。 同時我們也有客觀科學統計根據: • PCR:特異性=0.9999,敏感性=0.95 • 快篩:特異性=0.99,敏感性=0.75 • 醫檢學中的「敏感性」是真正帶原者之中真陽性的比 例。把比例等同機率,則敏感性就是當受檢者是真帶 原者時,採檢結果為陽性的機率: • 敏感性=Pr(採檢為陽性|受檢者是真正帶原者) • 因此,採檢為陽性之中真陽性的比例,轉換成機率的 概念,便是敏感性的反機率。這個反機率在數據科學 有一個專門的名稱,叫做「精密性」(precision)。 • 精密性=Pr(受檢者真正帶原|採檢為陽性者) 盛行率低低時期做PCR 和快 篩是沒有意義的
  • 20. 延伸閱讀: 用貝氏定理檢驗普篩的精密性-2 JOHNSON CHEN 202211 20 • 貝氏定理的2D可視化圖示說明。圖中闡 釋了事件A、事件B以及他們之間各種機 率組合的關係。 機率 *實際防疫中心的統計模型和分類更為複雜
  • 21. 延伸閱讀: 用貝氏定理檢驗普篩的精密性-3 JOHNSON CHEN 202211 21 • 圖二是把圖一的X橫軸延伸到π=0.1 (假設勝行率大幅提高)從圖中可以看出:當盛行 率的合理估計達到π=0.01時,PCR的精密性就很接近99%了。只是如果普檢要仰賴快 篩,則43%的精密性還是有所不足。但是當合理懷疑某對象受感染的先驗機率達到 π=0.1時,圖二顯示PCR的精密性幾乎是100%,而快篩的精密性也近乎90%了。 • 這也是許多國家地區,在意識到受感染的先驗機率(盛行率)已經很高的時後,反而 使用快篩作為防疫兼顧有效性和成本的第一步。
  • 22. 延伸閱讀: 用貝氏定理檢驗普篩的精密性-4 JOHNSON CHEN 202211 22 • 貝氏定理有一個所謂『先驗機率』的概念。這個先驗機率在COVID 疫情分析裡,可以被理解為專家 學者所認定的疫情盛行率 (Prevalence Rate) 的假設 。 • 因為盛行率是一個假設,所以它就不是客觀的經驗事實。 盛行先驗機率可以用先前 (例如別的地區 或人口)的數據,但它終究基本上反映了主觀的「信仰」(belief)。 • 而在公共衛生學和醫學檢測,這個「信仰」,除了醫學文獻、臨床經驗外,它通常還要靠著問診、疫 調等專業程序來建立,也就是醫檢人員必須要評估受採檢對象的旅遊史、接觸史、疾病史、健康狀況、 有否相關症狀、乃至於飲食作息等等資訊才能建立。 換句話說,先驗機率的建立與受採檢的族群母體 特性與脈絡息息相關。採檢對象的脈絡不同,先驗機率也會不同。不同國家地區也會有不同的假設。 • 精密性低的癥結不是在於採檢工具 (PCR vs 快篩)或者是採樣品質 (敏感性 vs特異性)。防疫指揮 中心所使用的PCR和快篩的品質都是極佳的工具,只是不同的防疫和社會成本考量。而決定什麼時候? 什麼人群?要進行快篩或PCR?其實是取決在於我們所設定的假設。而對廣大對象在缺乏足夠脈絡, 問診,疫調資訊而做無厘頭的全面採檢,終究導致了精密性低落到幾乎為0,只是浪費醫療資源。 • 結論:貝氏定理告訴我們,在疫情不同的盛行期(疫苗的供應,普及率,病 毒的變化),動態且密切的調整篩檢策略,工具,方式是有必要的。