3. アジェンダ
p BNNの応用例
n モデルの不確実性, データの不確実性, 予測の不確実性
n 不確実性の評価指標:相互情報量, 変動率, 予測エントロピー
n 能動学習
n 敵対的例の検知
n Out Of Distribution
n モデル圧縮
n 逐次学習
p 推論手法 ( BBB, MC dropout, SGLD, MNF, Bayesian Ensemble, Hyper Net)
p 比較実験(モデルパラメータの事前分布を通した関数のサンプリング,回帰の予測分布比較)
3
9. アジェンダ
n BNNの応用例
n モデルの不確実性, データの不確実性, 予測の不確実性
n 不確実性の評価指標:相互情報量, 変動率, 予測エントロピー
n 能動学習
n 敵対的例の検知
n Out Of Distribution
n モデル圧縮
n 逐次学習
n 推論手法 ( BBB, MC dropout, SGLD, MNF, Bayesian Ensemble, Hyper Net)
n 比較実験(モデルパラメータの事前分布を通した関数のサンプリング,回帰の予測分布比較)
9
10. 不確実性の種類
n ノイズの多いデータ(偶然性の不確実性:Aleatoric uncertainty )
n モデルパラメータの不確実性(認識の不確実性:Epistemic uncertainty )
n 予測の不確実性=偶然性の不確実性+認識の不確実性
n 不確実性を知る利点
p 意思決定プロセス内で意図しない行動を防ぐ鍵となる可能性がある.
p 医療の画像診断,車の自動運転,時系列データの異常検知 [Zhu 17]
[Kendall & Gal 17]
10
11. 偶然性の不確実性
¡ 多くのデータを観測しても不確実性は減少しない.
¡ 測定精度が向上すると不確実性は減少する.
ü 偶然性の不確実性の捉え方( 特に不均一な不確実性)
¡ 入力に依存する出力のノイズ変数
¡ シンプルな入力ノイズ(潜在変数)BNN+LVモデル
[Depeweg 17]
[Kendall and Gal 17]
[Depeweg 17]
観測されていない確率的特徴をz が捉える.
観測ノイズが大きい
小 小
入力によってノイズ量が違うとき
Heteroscedastic uncertainty(不均一な不確実性)
11
13. 画像における偶然と認識(モデル)の不確実性の比較
[Kendall and Gal 17]
偶然 認識
n 偶然性の不確実性:物体の境界やカメラから遠いところで不確実性が増大.
n 認識の不確実性:モデルが過去のデータから判断できない領域で不確実性が増大.
セグメンテーションの失敗例
画像のノイズが原因ではなく,
学習データに似たような画像が
なかったのが原因.
13
20. アジェンダ
p BNNの応用例
n モデルの不確実性, データの不確実性, 予測の不確実性
n 不確実性の評価指標:相互情報量, 変動率, 予測エントロピー
n 能動学習
n 敵対的例の検知
n Out Of Distribution
n モデル圧縮
n 逐次学習
p 推論手法 ( BBB, MC dropout, SGLD, MNF, Bayesian Ensemble, Hyper Net)
p 比較実験(モデルパラメータの事前分布を通した関数のサンプリング,回帰の予測分布比較)
20
24. OUT OF DISTRIBUTION 検出
¡ 背景: 学習データの分布と異なるデータ分布からのサンプルに対してモデルは知らないと返さない.
¡ 対策: BNNを用いて,学習データと分布が異なることを不確実性を高くして示す.
ü 一般的に,OODや訓練とテストデータの違いは,認識の不確実性を利用することが多い.
https://github.com/brendenlake/omniglot/blob/master/omniglot_grid.jpg
MNISTOMNIGLOT
データ分布異なる
24
26. アジェンダ
p BNNの応用例
n モデルの不確実性, データの不確実性, 予測の不確実性
n 不確実性の評価指標:相互情報量, 変動率, 予測エントロピー
n 能動学習
n 敵対的例の検知
n Out Of Distribution
n モデル圧縮
n 逐次学習
p 推論手法 ( BBB, MC dropout, SGLD, MNF, Bayesian Ensemble, Hyper Net)
p 比較実験(モデルパラメータの事前分布を通した関数のサンプリング,回帰の予測分布比較)
26
32. アジェンダ
p BNNの応用例
n モデルの不確実性, データの不確実性, 予測の不確実性
n 不確実性の評価指標:相互情報量, 変動率, 予測エントロピー
n 能動学習
n 敵対的例の検知
n Out Of Distribution
n モデル圧縮
n 逐次学習
p 推論手法 ( BBB, MC dropout, SGLD, MNF, Bayesian Ensemble, Hyper Net)
p 比較実験(モデルパラメータの事前分布を通した関数のサンプリング,回帰の予測分布比較)
32
36. アジェンダ
p BNNの応用例
n モデルの不確実性, データの不確実性, 予測の不確実性
n 不確実性の評価指標:相互情報量, 変動率, 予測エントロピー
n 能動学習
n 敵対的例の検知
n Out Of Distribution
n モデル圧縮
n 逐次学習
p 推論手法 ( BBB, MC dropout, SGLD, MNF, Bayesian Ensemble, Hyper Net)
p 比較実験(モデルパラメータの事前分布を通した関数のサンプリング,回帰の予測分布比較)
36
51. アジェンダ
p BNNの応用例
n モデルの不確実性, データの不確実性, 予測の不確実性
n 不確実性の評価指標:相互情報量, 変動率, 予測エントロピー
n 能動学習
n 敵対的例の検知
n Out Of Distribution
n モデル圧縮
n 逐次学習
p 推論手法 ( BBB, MC dropout, SGLD, MNF, Bayesian Ensemble, Hyper Net)
p 比較実験(モデルパラメータの事前分布を通した関数のサンプリング,回帰の予測分布比較)
51
62. ¡ Deep| Bayes
SUMMER SCHOOL ON DEEP LEARNING AND BAYESIAN METHODS
資料がダウンロードできて内容が濃い. 最近の話題も豊富!!
URL: https://deepbayes.ru/
DEEP | BAYES
62
63. 参考文献1
¡ Adler, J., & Öktem, O. (2018). Deep Bayesian Inversion. arXiv preprint arXiv:1811.05910. 敵対的学習 逆問題
¡ Atanov,A.,Ashukha,A., Struminsky, K.,Vetrov, D., & Welling, M. (2018).The Deep Weight Prior. Modeling a prior distribution for
CNNs using generative models. arXiv preprint arXiv:1810.06943. 事前分布 転移学習
¡ Balan,A. K., Rathod,V., Murphy, K. P., & Welling, M. (2015). Bayesian dark knowledge. In Advances in Neural Information Processing
Systems (pp. 3438-3446). モンテカルロ 知識蒸留
¡ Blundell, C., Cornebise, J., Kavukcuoglu, K., & Wierstra, D. (2015).Weight uncertainty in neural networks. arXiv preprint
arXiv:1505.05424. 変分推論・R Trick
¡ Depeweg, S., Hernández-Lobato, J. M., Doshi-Velez, F., & Udluft, S. (2017). Decomposition of uncertainty in bayesian deep learning
for efficient and risk-sensitive learning. arXiv preprint arXiv:1710.07283. 潜在変数・不確実性
¡ Depeweg, S., Hernández-Lobato, J. M., Doshi-Velez, F., & Udluft, S. (2017). Uncertainty decomposition in bayesian neural networks
with latent variables. arXiv preprint arXiv:1706.08495.潜在変数・不確実性
¡ Kingma, D. P., Salimans,T., Jozefowicz, R., Chen, X., Sutskever, I., & Welling, M. (2016). Improved variational inference
with inverse autoregressive flow. In Advances in neural information processing systems (pp. 4743-4751). IAF
63
64. 参考文献2
¡ Dikov, G., van der Smagt, P., & Bayer, J. (2019). Bayesian Learning of Neural Network Architectures. arXiv preprint
arXiv:1901.04436. モデル圧縮
¡ Dmitry Molchanov.,(2018) Bayesian neural networks (andVI in implicit models) Samsung AI Center, Samsung-HSE Laboratory
まとめ
¡ Farquhar, S., & Gal,Y. (2019).A Unifying BayesianView of Continual Learning. arXiv preprint arXiv:1902.06494. 逐次学習
¡ Feinman, R., Curtin, R. R., Shintre, S., & Gardner,A. B. (2017). Detecting adversarial samples from artifacts. arXiv preprint
arXiv:1703.00410.敵対的サンプル検出
¡ Flam-Shepherd, D., Requeima, J., & Duvenaud, D. (2017). Mapping gaussian process priors to bayesian neural networks. In NIPS Bayesian
deep learning workshop. GP・事前分布
¡ Ghosh, S.,Yao, J., & Doshi-Velez, F. (2018). Structured variational learning of Bayesian neural networks with horseshoe priors. arXiv preprint
arXiv:1806.05975. 変分推論・事前分布 horseshoe
¡ Ghosh, S., & Doshi-Velez, F. (2017). Model selection in bayesian neural networks via horseshoe priors. arXiv preprint arXiv:1705.10388. モ
デル選択・事前分布 horseshoe
¡ Gal,Y. (2016). Uncertainty in deep learning (Doctoral dissertation, PhD thesis, University of Cambridge). まとめ
64
65. 参考文献3
¡ Hafner, D.,Tran, D., Irpan,A., Lillicrap,T., & Davidson, J. (2018). Reliable uncertainty estimates in deep neural networks using noise
contrastive priors. arXiv preprint arXiv:1807.09289. OOD 不確実性 事前分布
¡ Henning, C., von Oswald, J., Sacramento, J., Surace, S. C., Pfister, J. P., & Grewe, B. F. (2018).Approximating the Predictive
Distribution via Adversarially-Trained Hypernetworks. In Bayesian Deep LearningWorkshop, NeurIPS (Spotlight) 2018. GAN &ハイ
パーネット
¡ Huszár, F. (2017).Variational inference using implicit distributions. arXiv preprint arXiv:1702.08235. GAN 変分推論
¡ Karaletsos,T., Dayan, P., & Ghahramani, Z. (2018). Probabilistic meta-representations of neural networks. arXiv preprint
arXiv:1810.00555. 潜在変数
¡ Kendall,A., & Gal,Y. (2017).What uncertainties do we need in bayesian deep learning for computer vision?. In Advances in neural
information processing systems (pp. 5574-5584). CV応用
¡ Kingma, D. P., Salimans,T., & Welling, M. (2015).Variational dropout and the local reparameterization trick. In Advances in Neural
Information Processing Systems (pp. 2575-2583). VI 変分推論
¡ Krueger, D., Huang, C.W., Islam, R.,Turner, R., Lacoste,A., & Courville,A. (2017). Bayesian hypernetworks. arXiv preprint
arXiv:1710.04759. ハイパーネットワーク
65
66. 参考文献4
¡ Kochurov, M., Garipov,T., Podoprikhin, D., Molchanov, D.,Ashukha,A., &Vetrov, D. (2018). Bayesian incremental learning for
deep neural networks. arXiv preprint arXiv:1802.07329. 逐次学習
¡ Lacoste,A., Oreshkin, B., Chung,W., Boquet,T., Rostamzadeh, N., & Krueger, D. (2018). Uncertainty in multitask transfer
learning. arXiv preprint arXiv:1806.07528. 応用・転移学習
¡ Lacoste,A., Boquet,T., Rostamzadeh, N., Oreshkin, B., Chung,W., & Krueger, D. (2017). Deep prior. arXiv preprint
arXiv:1712.05016. 事前確率
¡ Lakshminarayanan, B., Pritzel,A., & Blundell, C. (2017). Simple and scalable predictive uncertainty estimation using deep
ensembles. In Advances in Neural Information Processing Systems (pp. 6402-6413). アンサンブル
¡ Louizos, C., Ullrich, K., & Welling, M. (2017). Bayesian compression for deep learning. In Advances in Neural Information
Processing Systems (pp. 3288-3298). モデル圧縮
¡ Louizos, C., & Welling, M. (2017,August). Multiplicative normalizing flows for variational bayesian neural networks.
In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 2218-2227). JMLR. org. 変分推論・NF
¡ Nalisnick, E.T. (2018). On Priors for Bayesian Neural Networks. PhD thesis. 事前分布まとめ
¡ Nguyen, C.V., Li,Y., Bui,T. D., & Turner, R. E. (2017).Variational continual learning. arXiv preprint arXiv:1710.10628. 逐次学習
66
67. 参考文献5
¡ Malinin,A., & Gales, M. (2018). Predictive uncertainty estimation via prior networks. In Advances in Neural Information Processing
Systems (pp. 7047-7058). OODの検知
¡ Pawlowski, N., Brock,A., Lee, M. C., Rajchl, M., & Glocker, B. (2017). Implicit weight uncertainty in neural networks. arXiv preprint
arXiv:1711.01297.ハイパーネット
¡ Pearce,T., Zaki, M., and Neely,A. (2018). Bayesian Neural Network Ensembles. In Bayesian Deep LearningWorkshop, NeurIPS (NIPS)
2018. アンサンブル
¡ Pearce,T., Zaki, M., Brintrup,A., & Neel,A. (2018). Uncertainty in neural networks: Bayesian ensembling. arXiv preprint
arXiv:1810.05546. アンサンブル
¡ Pearce,T., Zaki, M., Brintrup,A., & Neely,A. (2019). Expressive Priors in Bayesian Neural Networks: Kernel Combinations and
Periodic Functions. arXiv preprint arXiv:1905.06076. カーネル
¡ Ranganath, R.,Tran, D., & Blei, D. (2016, June). Hierarchical variational models. In International Conference on Machine Learning (pp.
324-333).変分推論テクニック
¡ Sensoy, M., Kaplan, L., & Kandemir, M. (2018). Evidential deep learning to quantify classification uncertainty. In Advances in Neural
Information Processing Systems (pp. 3179-3189). クラス分類の不確かさ
67
68. 参考文献6
¡ Sheikh,A. S., Rasul, K., Merentitis,A., & Bergmann, U. (2017). Stochastic maximum likelihood optimization via hypernetworks. arXiv preprint
arXiv:1712.01141. 事前確率・ハイパーネットワーク
¡ Shin, H., Lee, J. K., Kim, J., & Kim, J. (2017). Continual learning with deep generative replay. In Advances in Neural Information Processing
Systems (pp. 2990-2999). 逐次学習
¡ Thulasidasan, S., Bhattacharya,T., Bilmes, J., Chennupati, G., & Mohd-Yusof, J. (2018). Knows When it Doesn’t Know: Deep Abstaining
Classifiers.クラス分類の不確かさ
¡ Ullrich, K., Meeds, E., & Welling, M. (2017). Soft weight-sharing for neural network compression. arXiv preprint arXiv:1702.04008. モデル圧
縮
¡ Vadera, M. P., & Marlin, B. M. (2019).Assessing the Robustness of Bayesian Dark Knowledge to Posterior Uncertainty. arXiv preprint
arXiv:1906.01724.知識蒸留
¡ Wang, K. C.,Vicol, P., Lucas, J., Gu, L., Grosse, R., & Zemel, R. (2018).Adversarial distillation of bayesian neural network posteriors. arXiv
preprint arXiv:1806.10317. 事後確率・敵対的学習
¡ Welling, M., & Teh,Y.W. (2011). Bayesian learning via stochastic gradient Langevin dynamics. In Proceedings of the 28th international conference
on machine learning (ICML-11) (pp. 681-688). サンプリング SGLD
¡ Zhu, L., & Laptev, N. (2017, November). Deep and confident prediction for time series at uber. In 2017 IEEE International Conference on Data
MiningWorkshops (ICDMW) (pp. 103-110). IEEE. 異常検知
68