Submit Search
Upload
最尤推定法(NNでの応用)
•
Download as PPTX, PDF
•
1 like
•
2,018 views
M
MatsuiRyo
Follow
最尤推定法の概要とNNでの応用例
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 25
Download now
Recommended
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
最適輸送の解き方
最適輸送の解き方
joisino
最適輸送入門
最適輸送入門
joisino
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
ブースティング入門
ブースティング入門
Retrieva inc.
Recommended
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
最適輸送の解き方
最適輸送の解き方
joisino
最適輸送入門
最適輸送入門
joisino
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
ブースティング入門
ブースティング入門
Retrieva inc.
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
gree_tech
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
sleepy_yoshi
強化学習その1
強化学習その1
nishio
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
Crfと素性テンプレート
Crfと素性テンプレート
Kei Uchiumi
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
ベイズ最適化
ベイズ最適化
MatsuiRyo
多目的遺伝的アルゴリズム
多目的遺伝的アルゴリズム
MatsuiRyo
More Related Content
What's hot
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
gree_tech
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
sleepy_yoshi
強化学習その1
強化学習その1
nishio
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
Crfと素性テンプレート
Crfと素性テンプレート
Kei Uchiumi
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
What's hot
(20)
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Optimizer入門&最新動向
Optimizer入門&最新動向
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
強化学習その1
強化学習その1
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
Crfと素性テンプレート
Crfと素性テンプレート
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
HiPPO/S4解説
HiPPO/S4解説
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
More from MatsuiRyo
ベイズ最適化
ベイズ最適化
MatsuiRyo
多目的遺伝的アルゴリズム
多目的遺伝的アルゴリズム
MatsuiRyo
MCMC法
MCMC法
MatsuiRyo
一般化線形モデル
一般化線形モデル
MatsuiRyo
一般線形モデル
一般線形モデル
MatsuiRyo
統計と機械学習
統計と機械学習
MatsuiRyo
Warshall froyd
Warshall froyd
MatsuiRyo
遺伝的アルゴリズム・遺伝的プログラミング
遺伝的アルゴリズム・遺伝的プログラミング
MatsuiRyo
More from MatsuiRyo
(8)
ベイズ最適化
ベイズ最適化
多目的遺伝的アルゴリズム
多目的遺伝的アルゴリズム
MCMC法
MCMC法
一般化線形モデル
一般化線形モデル
一般線形モデル
一般線形モデル
統計と機械学習
統計と機械学習
Warshall froyd
Warshall froyd
遺伝的アルゴリズム・遺伝的プログラミング
遺伝的アルゴリズム・遺伝的プログラミング
最尤推定法(NNでの応用)
1.
最尤推定法 -NNにおける応用例- 2018/12/10 東京工業大学 工学院 経営工学系
3年 松井諒生 1
2.
推定とは 母集団全てを調査して、母集団の特徴を知ることは現実的に難しい 母集団から一部分(標本)だけを取り出しその取り出したものの特徴 から母集団の特徴を予測する 知りたい母集団の特徴の例 ・平均 ・割合 ・分散
など 2
3.
推定の簡単な例 ある一部分のデータの割合から全体の割合を推測する ex) 画鋲を投げて針が下になる確率は? コインと違って、画鋲の重さや重心、形、空気抵抗などを計算しない と理論上の確率は割り出せない。 →数回繰り返し、そこから近似値を求める 100回のうち30回針が下になったからおおよその確率は3/10 3
4.
本当にそうなのか? ここで最尤推定法が用いられる 画鋲の例で考える。 標本の大きさはn、針が下になる確率をθとすると、 x回成功する確率Pは P 𝑥, 𝜃
= 𝑛 𝑥 𝜃 𝑥 1 − 𝜃 𝑛−𝑥 この式はxを変数と見れば、xに関する確率分布を表す確率関数と みなせ、 𝑥=0 𝑛 𝑛 𝑥 𝜃 𝑥 (1 − 𝜃) 𝑛−𝑥 = 1となる しかし、この例のように実際にはθでなくxがわかっていること も多い。 4
5.
θを変数と見れば、xが定められたときにθがいかに適切か(尤も らしいか)を示す「尤度」を表す尤度関数だとみなせる。 したがって、P(x,θ)を実験で求められたxの値で固定して、θ を変数としてみると、この実験での尤度関数がとなる。 尤度関数が最大⇔θが最も適切 となることから、この尤度関数を最大にさせるθが理論上の値に 最も近いとみなせる。 5
6.
理論値(と推定できる値)を求める log 𝑃 =
𝑥 log(𝜃) − (𝑛 − 𝑥) log(1 − 𝜃) + log( 𝑛 𝑥 ) 𝑑 𝑑𝜃 log 𝑃 = 𝑥 𝜃 − 𝑛 − 𝑥 1 − 𝜃 𝑑 𝑑𝜃 log 𝑃 = 0 ⟺ 𝜃 = 𝑥 𝑛 logP x/n Max(logP) 100回中、30回針が下になったとき、針が下になる確率は3/10 と事が推定することが最も適当であることが確かめられた 6
7.
二値分類ニューラルネットでは 出力を一つのノードにし、0~1の値を出力させる その入力が0.5より小さければ0、大きければ1と決定する。 0.5~1 → 1 0~0.5
→ 0 7
8.
まずは1入力を2値分類する場合 8
9.
入力A(X,t)は判断させたいベクトルXと教師データ値tをもっている tは0か1である 出力関数をf(X,W)とすると、 (Wは全重みと全バイアスを成分に持つベクトル) ・t=0のときはf(X,W)<0.5で正解、f(X,W)>0.5で不正解 ・t=1のときはf(X,W)<0.5で不正解、f(X,W)>0.5で正解 このように整理できる。 二値分類ニューラルネットでは (入力ベクトル1個) 9
10.
これをまとめるとp(x)を以下のように置いたとき、 𝑝 𝑿, 𝑾
= 𝑓 𝑿, 𝑾 𝑡 (1 − 𝑓 𝑿, 𝑾 )1−𝑡 p(X,W)<0.5で不正解、p(X,W)>0.5で正解となるといえる 二値分類ニューラルネットでは (入力ベクトル1個) 10
11.
Xは簡単に知ることができるデータ(針が下になる回数) Wは知りたい、適切なパラメータ(針が下になる確率) p(X,W)は正解となる確率(厳密には少し違う)であり、かつWがど れだけ適切かを表す尤度関数である。 したがってWを変数として、 p(X,W)を最大とするWを求めれば最も 適切なパラメータが算出できる 二値分類ニューラルネットでは (入力ベクトル1個) 11
12.
𝑝 𝑿, 𝑾
= 𝑓 𝑿, 𝑾 𝑡 (1 − 𝑓 𝑿, 𝑾 )1−𝑡 p(X,W)が最大⇔logp(x)が最大⇔-logp(x)が最小 だから 𝐸 𝑾 = − log 𝑝 𝑿, 𝑾 = − tlog 𝑓 𝑿, 𝑾 + 1 − 𝑡 log(1 − 𝑓 𝑿, 𝑾 ) E(W)を損失関数として、これを最小にしていくことを考える 二値分類ニューラルネットでは (入力ベクトル1個) 12
13.
𝑑 𝑑𝑊 𝐸 𝑾∗ =
0 ⟺ 任意の 𝑘, 𝑖, 𝑗 で 𝜕 𝜕𝑤𝑘𝑖𝑗 𝐸 𝑾∗ = 0 となるときE(W)が最小、つまりXにとって最も適切なWとなる。 二値分類ニューラルネットでは (入力ベクトル1個) W* W 13
14.
n個の入力を2値分類する場合 14
15.
入力が A1(X1,t1) A2(X2,t2)
・・・ An(Xn,tn) と、n個ある場合を考 えると、k回目の入力の尤度は下のようにあらわせる。 𝑝𝑘 𝑿𝒌, 𝑾 = 𝑓 𝑿𝒌, 𝑾 𝑡𝑛 (1 − 𝑓 𝑿𝒌, 𝑾 )1−𝑡𝑛 k回目の出力は p(Xk,W)<0.5で不正解、p(Xk,W)>0.5で正解 k回の試行はすべて独立であるから1~n回目の全体の尤度関数(確率関数) は下のようにあらわせる。 𝑝 𝑿𝟏, 𝑿𝟐, ⋯ 𝑿𝒏, 𝑾 = 𝑘=1 𝑛 𝑝(𝑿𝒌, 𝑾) 二値分類ニューラルネットでは (入力ベクトルn個) 15
16.
入力ベクトル1個のときと同様に対数とって符号をかえることで、 𝐸 𝑾 =
−log( 𝑘=1 𝑛 𝑝(𝑿𝒌, 𝑾)) = 𝑘=1 𝑛 −log(𝑝(𝑿𝒌, 𝑾)) を損失関数として定義できる。 (*ミニバッチではそれぞれの平均をとる操作があり、右辺に1/Nが かけられていることがあるが、学習係数に含まれるためあまり意味 はない) 二値分類ニューラルネットでは (入力ベクトルn個) 16
17.
1入力を多値分類する場合 17
18.
出力N個のノードにし、0~1の値を出力させる その入力が最も大きいクラスの出力を1、そのほかの出力を0と することで一つのクラスに分類する。 多値分類ニューラルネットでは (入力ベクトル1個) g1(X,W) 0~1 gN(X,W) 0~1 g(X,W) 18
19.
入力(X,t)は判断させたいベクトルXと教師ベクトルtをもっている t=(t1,t2,t3・・・tN)で、例えば3番目のクラスに分けたいときは t=(0,0,1,0,0・・・0)となる。 出力関数g(X,W)のm番目の成分をgm(X,W)とすると、これはm番目 のクラスに分類される確率とみなせるので、 ・tm=0であるmは考えず、 ・tm=1であるmで、gm(X,W)が大きいほど正解に近づく と、整理できる 多値分類ニューラルネットでは (入力ベクトル1個) 19
20.
これをまとめると、p(x)を以下のように置いたとき、 𝑝 𝑿, 𝑾
= 𝑚=1 𝑁 𝑔𝑚 𝑿, 𝑾 𝑡𝑚 これが大きいほど正解に近いといえる。 (右辺はm番目以外1なので、実質はk=1のfm(X,W)を表す) 多値分類ニューラルネットでは (入力ベクトル1個) 20
21.
これまでと同様に、このp(X,W)をXを固定してWの尤度関数とみて、 E 𝒘 =
−log 𝑝 𝑿, 𝑾 = − 𝑚=1 𝑁 𝑡m(log 𝑔 𝑿, 𝑾 )) と、損失関数を定義することで、最適なWを求めていく。 多値分類ニューラルネットでは (入力ベクトル1個) 21
22.
1入力を多値分類する場合 22
23.
入力が A1(X1,t1) A2(X2,t2)
・・・ An(Xn,tn) と、n個ある場 合を考えると、k回目の入力の尤度は 𝑝 𝑿𝒌, 𝑾 = 𝑚=1 𝑁 𝑔𝑚 𝑿𝒌, 𝑾 𝑡𝑚 すべてのkについて、これが大きいほど正解に近づくので、 1~n回目の全体の尤度関数は下のようにあらわせる 多値分類ニューラルネットでは (入力ベクトルn個) 𝑝 𝑿𝟏, 𝑿𝟐, ⋯ 𝑿𝒏, 𝑾 = 𝑘=1 𝑛 𝑚=1 𝑁 𝑔𝑚(𝑿𝒌, 𝑾) 23
24.
これまでと同様に、対数とって符号を変えることで、 多値分類ニューラルネットでは (入力ベクトルn個) 𝐸 𝒘 =
−log( 𝑘=1 𝑛 𝑚=1 𝑁 𝑔𝑚(𝑿𝒌, 𝑾)) = − 𝑘=1 𝑛 𝑚=1 𝑁 𝑡 𝑘𝑚 log 𝑔 𝑚(𝑿 𝒌, 𝑾) として、損失関数を決定できる。 また、このE(W)をクロスエントロピーと呼ぶ 24
25.
関数f(x)、g(x)について 𝑓 𝑥 = 1 1+𝑒−𝑦:シグモイド関数 𝑔
𝑥 = 𝑒 𝑦𝑖 𝑘 𝑒 𝑦𝑘:ソフトマックス関数 y=WX+B ソフトマックス関数の𝑦 𝑘のすべてに定数sを加えた時も約分され て値は変わらない。よって、制約を付けなければ出力層に入る結 合の重みW、Bが一つに定まらない。 重み減衰 重み上限 ドロップアウト などを取り入れる 25
Download now