SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
[論文]Stochastic Thermodynamics
Interpretation of Information Geometry[1]
で重要だと勝手に思うこと
第0回機械学習交流会
Twitter:@UMU____
+背景分野略説
[1] Ito Sosuke, arXiv preprint, arXiv:1712.04311 (2017).
[注1]:勉強中なので,間違っている箇所があるかもしれません.
間違っている箇所を発見した場合は報告して頂けると助かります.
[注2]:このプレゼンは下記論文を完全に説明したものではなく,私
が勝手に重要だと思った箇所を説明するためのものです.
目次
• タイトル
• 自己紹介
• 目次
• 概要
• 背景分野について
• 情報幾何学略説
• 確率熱力学略説
• 情報幾何の確率熱力学的解釈について
Stochastic Thermodynamics
Interpretation of Information Geometry
において重要だと思う箇所
• 情報幾何学の確率熱力学的解釈を与えた.
(その中でも)
情報幾何学から簡単に導ける不等式
𝜏 ≥
ℒ2
2𝒞
の熱力学的解釈を与えた点.
ℒ: 統計的長さ(KLダイバージェンスを計量とした確率分布の遷移過程の長さ)
𝒞:熱力学的コスト
𝜏:時間
統計的長さには,
かけた熱力学的コストと時間
で表される上限がある.
Point
背景分野 1 古典熱力学
平衡統計力学
確率熱力学(非線形ゆらぎ)
線形応答理論
~1850
~1900
~1960
1993~
ミクロな系での熱力学
(エントロピー,仕事,…)
はどう表現されるのか?
Point
• 確率熱力学
幅広いゆらぎを取り扱う
ことのできる熱力学
情報理論と組み合わせる
ことにより,非線形熱力学
を構築することに成功した
背景分野 2
• 情報幾何学
確率分布のなす空間について
の幾何学
フィッシャー情報量行列を計量とすることで確
率分布間の距離を定義する.
リーマン幾何学
情報幾何学
確率分布と確率分布の間の距離をど
のように定義するのか?
Point
導入(系の定義)
• この論文でのすべての議論は
「離散集合連続時間マルコフ過程」を用いる.
離散集合 𝑖 = 1,2,3, … , 𝑁 があるとする.
ある時刻𝑡 ∈ ℝに,集合 𝑖 = 0,1,2, … , 𝑁 のいずれかの状態を
取るとする.また,ある時刻𝑡にて𝑖を取る確率を𝑝𝑖(𝑡)と定義
する.
時刻𝑡から時刻𝑡 + 𝑑𝑡の間の, 𝑝𝑖(𝑡)の増加量d𝑝𝑖 𝑡 は
d𝑝𝑖 𝑡 = d𝑡 ෍
𝑗
𝑊𝑗→𝑖 𝑝𝑗(𝑡)
で定義されるとする.
これを離散集合連続時間マルコフ過程と呼ぶ.
確率分布の変化がその時刻の確率
にしかよらないようなダイナミクスを考える
Point
𝑊𝑗→𝑖は単位時間あたりに
𝑗 → 𝑖へ遷移する確率
情報幾何略説 1/
• 情報幾何学によって,前スライドで導入したダイナミクス
に「統計的距離」を導入する.
• 距離を測るための道具である計量として,情報幾何学では
フィッシャー計量
𝑑𝑠2 = 2 𝐷 𝐾𝐿(𝒑||𝒑 + 𝑑𝒑)
を導入する.
[dpだけ確率が変化した時,その変化の大きさを定義する.]
ここで 𝐷 𝐾𝐿 はKLダイバージェンスと呼ばれる擬距離の一種で,
情報量/エントロピーと深い関係がある.
• KLダイバージェンス:
𝐷 𝐾𝐿(𝒑| 𝒒 = ෍
𝑖
𝑝𝑖 ln
𝑝𝑖
𝑞𝑖
「ものさし」が
KLダイバージェンス.
Point
もっと詳しく,
フィッシャー計量 1/3
𝑑𝑠2
= 2 𝐷 𝐾𝐿(𝒑| 𝒑 + 𝑑𝒑
= −2 ෍
𝑖
𝑝𝑖 ln
𝑝𝑖 + 𝑑𝑝𝑖
𝑝𝑖
= − ෍
𝑖
𝑝𝑖 ln 1 +
𝑑𝑝𝑖
𝑝𝑖
2
= − ෍
𝑖
𝑝𝑖 ln 1 + 2
𝑑𝑝𝑖
𝑝𝑖
+
𝑑𝑝𝑖
2
𝑝𝑖
2
= ෍
𝑖
𝑑𝑝𝑖
2
𝑝𝑖
テイラー展開.
2次の項まで
計算する.
(1次で切るとおか
しくなるので注意)
ln 1 + 𝑥 ≅ 𝑥 −
1
2
𝑥2
𝑑𝑠2
= ෍
𝑖
𝑑𝑝𝑖
2
𝑝𝑖
Point
もっと詳しく,
フィッシャー計量 2/3
𝑑𝑠2
= ෍
𝑖
𝑑𝑝𝑖
2
𝑝𝑖
とはどういう計量なのか?
𝑑𝑠2 = ෍
𝑖
𝑑𝑝𝑖
2
𝑝𝑖
= ෍
𝑖
𝑑𝑝𝑖
𝑝𝑖
2
= ෍
𝑖
𝑑2 𝑝𝑖
2
• 2 𝑝𝑖 = 𝑥𝑖とおくと
𝑑𝑠2
= ෍
𝑖
𝑑𝑥𝑖
2
2 𝑝𝑖を軸とすれば直交座標系と同じ
Point
ただのデカルト座標系の計量
𝑑𝑠2
= 𝑑𝑥2
+ 𝑑𝑦2
+ 𝑑𝑧2
+ ⋯
もっと詳しく,
フィッシャー計量 3/3
• 𝑥𝑖 = 2 𝑝𝑖を軸とすれば直交座標系
と同じ.
ただし𝒑は確率なので,σ𝑖 𝑝𝑖 = 1
(規格化)を満たす必要がある.
𝑥𝑖 = 2 𝑝𝑖のうち規格化条件を満た
すのは,
෍
𝑖
𝑥𝑖
2
= 22
であるとき,つまり半径2の球面
離散集合の確率に対するフィッシャー計量は
軸を2 𝑝𝑖と取った時の球面上の計量と同じ
Point
情報幾何略説 2/
• 導入した計量が球面と等価であるこ
とが分かった.よって,ダイナミク
スによる確率分布の変化において,
統計的道のりの長さは,球面上の道
のりの長さを調べればよい.
• この道のりの長さℒを数式であらわ
すと,
ℒ = න 𝑑𝑠 = න
𝑑𝑠
𝑑𝑡
𝑑𝑡
となる.
赤線:ある確率分布の
ダイナミクス(確率の軌跡)
始状態
終状態
球面上の
最短距離
球面上の微小長さ
( 𝑑𝑠2)
情報幾何学が,わかった.(それはない)
Point
確率熱力学略説 0/
• 確率熱力学によって,導入したダイナミクスに,熱力学的解
釈を導入する.
• の前に古典熱力学略説
熱浴
古典熱力学略説 1/
• 確率的熱力学で重要となるのが物理量「エントロピー」.
• 熱力学では,熱力学第2法則
「エントロピーの総和は減少しない」が存在する.
例えば,系と熱浴が熱を交換する場合を考える.このとき,
系と熱浴の間でエントロピーの交換が行われ,片方のエント
ロピーは減少する場合があるが,その総量が減少することは
ない.総量の増減がゼロとなるのは,準静的過程のみ.
系
+Δ𝑆1
+Δ𝑆2
−Δ𝑆𝑡
+Δ𝑆𝑡
Δ𝑆1 + Δ𝑆2 + Δ𝑆𝑡 − Δ𝑆𝑡 ≥ 0
エントロピーという量
は必ず増大する
Point
確率熱力学略説 1/
• 確率熱力学では,(離散集合連続時間マルコフ過程)の
エントロピーはどのように定義されるか?
• 確率熱力学では,系(𝒑)は熱浴 𝑾 によって駆動されていると
考え,系と熱浴の確率的エントロピー変化( ሶ𝑠 𝑠𝑦𝑠
, ሶ𝑠 𝑏𝑎𝑡ℎ
)を,次
のように定義する.(厳密には,導出することができる)
状態𝑖から,状態𝑗へ遷移したとき,
ሶ𝑠𝑖→𝑗
𝑠𝑦𝑠
= ln 𝑝𝑖 − ln 𝑝𝑗
ሶ𝑠𝑖→𝑗
𝑏𝑎𝑡ℎ
= ln 𝑊𝑖→𝑗 − ln 𝑊𝑗→𝑖
となる.
ただし,これはある一つの遷移に着目したときの「確率的」
エントロピー変化であり,期待値としての変化ではない.
系と熱浴の確率的エントロピーを導入した
Point
d𝑝𝑖 𝑡 = d𝑡 ෍
𝑗
𝑊𝑗→𝑖 𝑝𝑗(𝑡)
確率熱力学略説 2/
• 状態𝑖から,状態𝑗へ遷移したときの確率的エントロピー変化
ሶ𝑠𝑖→𝑗
𝑠𝑦𝑠
= ln 𝑝𝑖 − ln 𝑝𝑗
ሶ𝑠𝑖→𝑗
𝑏𝑎𝑡ℎ
= ln 𝑊𝑖→𝑗 − ln 𝑊𝑗→𝑖
• 状態𝑖から,状態𝑗への遷移が時間𝑑𝑡で実現される確率は
𝑑𝑡𝑊𝑖→𝑗 𝑝𝑖
よって,確率的エントロピー変化の期待値(アンサンブル平均)
すなわちエントロピー変化(dt間)は,
𝑑𝑡 ሶ𝑠𝑖→𝑗
𝑠𝑦𝑠
= ෍
𝑖≠𝑗
𝑑𝑡𝑊𝑖→𝑗 𝑝𝑖 ሶ𝑠𝑖→𝑗
𝑠𝑦𝑠
= 𝑑𝑡 ෍
𝑖≠𝑗
𝑊𝑖→𝑗 𝑝𝑖 ln
𝑝𝑖
𝑝𝑗
𝑑𝑡 ሶ𝑠𝑖→𝑗
𝑏𝑎𝑡ℎ
= ෍
𝑖≠𝑗
𝑑𝑡𝑊𝑖→𝑗 𝑝𝑖 ሶ𝑠𝑖→𝑗
𝑏𝑎𝑡ℎ
= 𝑑𝑡 ෍
𝑖≠𝑗
𝑊𝑖→𝑗 𝑝𝑖 ln
𝑊𝑖→𝑗
𝑊𝑗→𝑖
系と熱浴のエントロピー変化を計算した
Point
d𝑝𝑖 𝑡 = d𝑡 ෍
𝑗
𝑊𝑗→𝑖 𝑝𝑗
確率熱力学略説 3/
• ここで,エントロピー変化の総和はどうなるかを調べる.
ሶ𝑠𝑖→𝑗
𝑡𝑜𝑡
= ሶ𝑠𝑖→𝑗
𝑠𝑦𝑠
+ ሶ𝑠𝑖→𝑗
𝑏𝑎𝑡ℎ
= ෍
𝑖≠𝑗
𝑊𝑖→𝑗 𝑝𝑖 ln
𝑝𝑖
𝑝𝑗
+ ෍
𝑖≠𝑗
𝑊𝑖→𝑗 𝑝𝑖 ln
𝑊𝑖→𝑗
𝑊𝑗→𝑖
= ෍
𝑖≠𝑗
𝑊𝑖→𝑗 𝑝𝑖 ln
𝑝𝑖 𝑊𝑖→𝑗
𝑝𝑗 𝑊𝑗→𝑖
(a)
• ここで,添え字(𝑖, 𝑗)を交換すると,
෍
𝑖≠𝑗
𝑊𝑖→𝑗 𝑝𝑖 ln
𝑝𝑖 𝑊𝑖→𝑗
𝑝𝑗 𝑊𝑗→𝑖
= ෍
𝑗≠𝑖
𝑊𝑗→𝑖 𝑝𝑗 ln
𝑝𝑗 𝑊𝑗→𝑖
𝑝𝑖 𝑊𝑖→𝑗
= ෍
𝑗≠𝑖
−𝑊𝑗→𝑖 𝑝𝑗 ln
𝑝𝑖 𝑊𝑖→𝑗
𝑝𝑗 𝑊𝑗→𝑖
b
• 𝑎 + 𝑏 をすると
2 × 𝑎 = 𝑎 + 𝑏 = ෍
𝑖≠𝑗
𝑊𝑖→𝑗 𝑝𝑖 − 𝑊𝑗→𝑖 𝑝𝑗 ln 𝑝𝑖 𝑊𝑖→𝑗 − ln 𝑝𝑗 𝑊𝑗→𝑖 ≥ 0
よって, ሶ𝑠𝑖→𝑗
𝑡𝑜𝑡
≥ 0
Point
d𝑝𝑖 𝑡 = d𝑡 ෍
𝑗
𝑊𝑗→𝑖 𝑝𝑗
この部分の
添え字のみ交換
and
符号が反転
符号が同じなので積は常に正
エントロピー
増大則!!
情報幾何学の
確率熱力学的解釈 1/
• 統計的長さℒには,どのような性質があるだろうか
ℒ = න
𝑑𝑠
𝑑𝑡
𝑑𝑡 再掲
• コーシー・シュワルツの不等式
‫׬‬ 𝑓 𝑥 𝑔 𝑥 𝑑𝑥
2
≤ ‫׬‬ 𝑓 𝑥
2
𝑑𝑥 ⋅ ‫׬‬ 𝑔 𝑥
2
𝑑𝑥
を用いて,
ℒ2 = න
𝑑𝑠
𝑑𝑡
⋅ 1𝑑𝑡
2
≤ න
𝑑𝑠
𝑑𝑡
2
𝑑𝑡 ⋅ න 1 2 𝑑𝑡 = 2𝒞𝜏
2𝒞と置く 1(定数)の積分
=かけた時間2𝒞𝜏 ≥ ℒ2
Point
情報幾何学の
確率熱力学的解釈 2/
• 𝒞 =
1
2
‫׬‬
𝑑𝑠
𝑑𝑡
2
𝑑𝑡 とは何なのか?
𝑑𝑠
𝑑𝑡
2
=
𝑑𝑠2
𝑑𝑡2
= ⋯ = −
𝑑 ሶ𝑠 𝑠𝑦𝑠
𝑑𝑡
とできる.また, ሶ𝑠 𝑠𝑦𝑠 + ሶ𝑠 𝑏𝑎𝑡ℎ = ሶ𝑠 𝑡𝑜𝑡であるので,
𝑑𝑠2
𝑑𝑡2 = −
𝑑 ሶ𝑠 𝑠𝑦𝑠
𝑑𝑡
=
𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ
𝑑𝑡
−
𝑑 ሶ𝑠 𝑡𝑜𝑡
𝑑𝑡
.
従って, 𝒞 = −
1
2
‫׬‬
𝑑 ሶ𝑠 𝑠𝑦𝑠
𝑑𝑡
𝑑𝑡 =
1
2
‫׬‬
𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ
𝑑𝑡
−
𝑑 ሶ𝑠 𝑡𝑜𝑡
𝑑𝑡
𝑑𝑡 .
𝒞 =
1
2
න
𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ
𝑑𝑡
−
𝑑 ሶ𝑠 𝑡𝑜𝑡
𝑑𝑡
𝑑𝑡
Point
とても長い計算
過程だがやろう
と思えばできる
情報幾何学の
確率熱力学的解釈 3/
• 𝒞 = −
1
2
‫׬‬
𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ
𝑑𝑡
−
𝑑 ሶ𝑠 𝑡𝑜𝑡
𝑑𝑡
𝑑𝑡 とはどんな量??
平衡状態に近い場合を考えてみる⇒詳細つり合い条件が成立
𝑝𝑖 𝑊𝑖→𝑗 = 𝑝𝑗 𝑊𝑗→𝑖
• ሶ𝑠 𝑡𝑜𝑡
= ሶ𝑠𝑖→𝑗
𝑠𝑦𝑠
+ ሶ𝑠𝑖→𝑗
𝑏𝑎𝑡ℎ
= ln
𝑝𝑖 𝑊 𝑖→𝑗
𝑝 𝑗 𝑊 𝑗→𝑖
⇒詳細つり合い条件下で,ln
𝑝𝑖 𝑊 𝑖→𝑗
𝑝 𝑗 𝑊 𝑗→𝑖
= ln 1 = 0
⇒
𝑑 ሶ𝑠 𝑡𝑜𝑡
𝑑𝑡
=0
•
𝑑
𝑑𝑡
ሶ𝑠𝑖→𝑗
𝑏𝑎𝑡ℎ
=
𝑑
𝑑𝑡
ln
𝑊 𝑖→𝑗
𝑊 𝑗→𝑖
∴
𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ
𝑑𝑡
⋯
𝒞 =熱力学的コスト____
Point
𝑊𝑖→𝑗は,ダイナミクスどのような法則に
従うのかを表す量であった.
従って,これが変化するということは
外部から与える必要のある
熱力学的(確率的)コストを表している.
(詳細つり合い条件)
𝑑 ሶ𝑠∗
𝑑𝑡
≠
𝑑
𝑑𝑡
ሶ𝑠∗
だよ
単位時間
当たりの
熱力学的
コスト
常に非負
∵= 𝑑𝑠2
/𝑑𝑡2
情報幾何学の
確率熱力学的解釈 4/
• よって
2𝒞𝜏 ≥ ℒ2
ℒ: 統計的長さ,𝒞:熱力学的コスト,𝜏:時間
つまり,より確率分布の変化ℒを大きくするためには,
その分(前頁で考えた)熱力学的コスト𝒞を大きくするか,
より長い時間𝜏をかける必要がある,
ということを表している.
おわり
Point

Mais conteúdo relacionado

Mais de KCS Keio Computer Society

Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalKCS Keio Computer Society
 
Vector-Based navigation using grid-like representations in artificial agents
 Vector-Based navigation using grid-like representations in artificial agents Vector-Based navigation using grid-like representations in artificial agents
Vector-Based navigation using grid-like representations in artificial agentsKCS Keio Computer Society
 
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読KCS Keio Computer Society
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読KCS Keio Computer Society
 

Mais de KCS Keio Computer Society (20)

Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
 
Imagenet trained cnns-are_biased_towards
Imagenet trained cnns-are_biased_towardsImagenet trained cnns-are_biased_towards
Imagenet trained cnns-are_biased_towards
 
機械学習ゼミ: Area attenttion
機械学習ゼミ: Area attenttion機械学習ゼミ: Area attenttion
機械学習ゼミ: Area attenttion
 
機械学習ゼミ 2018/10/17
機械学習ゼミ 2018/10/17機械学習ゼミ 2018/10/17
機械学習ゼミ 2018/10/17
 
機械学習ゼミ2018 06 15
機械学習ゼミ2018 06 15機械学習ゼミ2018 06 15
機械学習ゼミ2018 06 15
 
Control by deep learning
Control by deep learningControl by deep learning
Control by deep learning
 
深層学習 第6章
深層学習 第6章深層学習 第6章
深層学習 第6章
 
Vector-Based navigation using grid-like representations in artificial agents
 Vector-Based navigation using grid-like representations in artificial agents Vector-Based navigation using grid-like representations in artificial agents
Vector-Based navigation using grid-like representations in artificial agents
 
文章生成の未解決問題
文章生成の未解決問題文章生成の未解決問題
文章生成の未解決問題
 
Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
テンソル代数
テンソル代数テンソル代数
テンソル代数
 
Hindsight experience replay
Hindsight experience replayHindsight experience replay
Hindsight experience replay
 
Kml 輪読514
Kml 輪読514Kml 輪読514
Kml 輪読514
 
ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
 
ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読
 
Soft Actor Critic 解説
Soft Actor Critic 解説Soft Actor Critic 解説
Soft Actor Critic 解説
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読
 
Graph Convolutional Network 概説
Graph Convolutional Network 概説Graph Convolutional Network 概説
Graph Convolutional Network 概説
 

[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry

  • 1. [論文]Stochastic Thermodynamics Interpretation of Information Geometry[1] で重要だと勝手に思うこと 第0回機械学習交流会 Twitter:@UMU____ +背景分野略説 [1] Ito Sosuke, arXiv preprint, arXiv:1712.04311 (2017). [注1]:勉強中なので,間違っている箇所があるかもしれません. 間違っている箇所を発見した場合は報告して頂けると助かります. [注2]:このプレゼンは下記論文を完全に説明したものではなく,私 が勝手に重要だと思った箇所を説明するためのものです.
  • 2. 目次 • タイトル • 自己紹介 • 目次 • 概要 • 背景分野について • 情報幾何学略説 • 確率熱力学略説 • 情報幾何の確率熱力学的解釈について
  • 3. Stochastic Thermodynamics Interpretation of Information Geometry において重要だと思う箇所 • 情報幾何学の確率熱力学的解釈を与えた. (その中でも) 情報幾何学から簡単に導ける不等式 𝜏 ≥ ℒ2 2𝒞 の熱力学的解釈を与えた点. ℒ: 統計的長さ(KLダイバージェンスを計量とした確率分布の遷移過程の長さ) 𝒞:熱力学的コスト 𝜏:時間 統計的長さには, かけた熱力学的コストと時間 で表される上限がある. Point
  • 4. 背景分野 1 古典熱力学 平衡統計力学 確率熱力学(非線形ゆらぎ) 線形応答理論 ~1850 ~1900 ~1960 1993~ ミクロな系での熱力学 (エントロピー,仕事,…) はどう表現されるのか? Point • 確率熱力学 幅広いゆらぎを取り扱う ことのできる熱力学 情報理論と組み合わせる ことにより,非線形熱力学 を構築することに成功した
  • 6. 導入(系の定義) • この論文でのすべての議論は 「離散集合連続時間マルコフ過程」を用いる. 離散集合 𝑖 = 1,2,3, … , 𝑁 があるとする. ある時刻𝑡 ∈ ℝに,集合 𝑖 = 0,1,2, … , 𝑁 のいずれかの状態を 取るとする.また,ある時刻𝑡にて𝑖を取る確率を𝑝𝑖(𝑡)と定義 する. 時刻𝑡から時刻𝑡 + 𝑑𝑡の間の, 𝑝𝑖(𝑡)の増加量d𝑝𝑖 𝑡 は d𝑝𝑖 𝑡 = d𝑡 ෍ 𝑗 𝑊𝑗→𝑖 𝑝𝑗(𝑡) で定義されるとする. これを離散集合連続時間マルコフ過程と呼ぶ. 確率分布の変化がその時刻の確率 にしかよらないようなダイナミクスを考える Point 𝑊𝑗→𝑖は単位時間あたりに 𝑗 → 𝑖へ遷移する確率
  • 7. 情報幾何略説 1/ • 情報幾何学によって,前スライドで導入したダイナミクス に「統計的距離」を導入する. • 距離を測るための道具である計量として,情報幾何学では フィッシャー計量 𝑑𝑠2 = 2 𝐷 𝐾𝐿(𝒑||𝒑 + 𝑑𝒑) を導入する. [dpだけ確率が変化した時,その変化の大きさを定義する.] ここで 𝐷 𝐾𝐿 はKLダイバージェンスと呼ばれる擬距離の一種で, 情報量/エントロピーと深い関係がある. • KLダイバージェンス: 𝐷 𝐾𝐿(𝒑| 𝒒 = ෍ 𝑖 𝑝𝑖 ln 𝑝𝑖 𝑞𝑖 「ものさし」が KLダイバージェンス. Point
  • 8. もっと詳しく, フィッシャー計量 1/3 𝑑𝑠2 = 2 𝐷 𝐾𝐿(𝒑| 𝒑 + 𝑑𝒑 = −2 ෍ 𝑖 𝑝𝑖 ln 𝑝𝑖 + 𝑑𝑝𝑖 𝑝𝑖 = − ෍ 𝑖 𝑝𝑖 ln 1 + 𝑑𝑝𝑖 𝑝𝑖 2 = − ෍ 𝑖 𝑝𝑖 ln 1 + 2 𝑑𝑝𝑖 𝑝𝑖 + 𝑑𝑝𝑖 2 𝑝𝑖 2 = ෍ 𝑖 𝑑𝑝𝑖 2 𝑝𝑖 テイラー展開. 2次の項まで 計算する. (1次で切るとおか しくなるので注意) ln 1 + 𝑥 ≅ 𝑥 − 1 2 𝑥2 𝑑𝑠2 = ෍ 𝑖 𝑑𝑝𝑖 2 𝑝𝑖 Point
  • 9. もっと詳しく, フィッシャー計量 2/3 𝑑𝑠2 = ෍ 𝑖 𝑑𝑝𝑖 2 𝑝𝑖 とはどういう計量なのか? 𝑑𝑠2 = ෍ 𝑖 𝑑𝑝𝑖 2 𝑝𝑖 = ෍ 𝑖 𝑑𝑝𝑖 𝑝𝑖 2 = ෍ 𝑖 𝑑2 𝑝𝑖 2 • 2 𝑝𝑖 = 𝑥𝑖とおくと 𝑑𝑠2 = ෍ 𝑖 𝑑𝑥𝑖 2 2 𝑝𝑖を軸とすれば直交座標系と同じ Point ただのデカルト座標系の計量 𝑑𝑠2 = 𝑑𝑥2 + 𝑑𝑦2 + 𝑑𝑧2 + ⋯
  • 10. もっと詳しく, フィッシャー計量 3/3 • 𝑥𝑖 = 2 𝑝𝑖を軸とすれば直交座標系 と同じ. ただし𝒑は確率なので,σ𝑖 𝑝𝑖 = 1 (規格化)を満たす必要がある. 𝑥𝑖 = 2 𝑝𝑖のうち規格化条件を満た すのは, ෍ 𝑖 𝑥𝑖 2 = 22 であるとき,つまり半径2の球面 離散集合の確率に対するフィッシャー計量は 軸を2 𝑝𝑖と取った時の球面上の計量と同じ Point
  • 11. 情報幾何略説 2/ • 導入した計量が球面と等価であるこ とが分かった.よって,ダイナミク スによる確率分布の変化において, 統計的道のりの長さは,球面上の道 のりの長さを調べればよい. • この道のりの長さℒを数式であらわ すと, ℒ = න 𝑑𝑠 = න 𝑑𝑠 𝑑𝑡 𝑑𝑡 となる. 赤線:ある確率分布の ダイナミクス(確率の軌跡) 始状態 終状態 球面上の 最短距離 球面上の微小長さ ( 𝑑𝑠2) 情報幾何学が,わかった.(それはない) Point
  • 13. 熱浴 古典熱力学略説 1/ • 確率的熱力学で重要となるのが物理量「エントロピー」. • 熱力学では,熱力学第2法則 「エントロピーの総和は減少しない」が存在する. 例えば,系と熱浴が熱を交換する場合を考える.このとき, 系と熱浴の間でエントロピーの交換が行われ,片方のエント ロピーは減少する場合があるが,その総量が減少することは ない.総量の増減がゼロとなるのは,準静的過程のみ. 系 +Δ𝑆1 +Δ𝑆2 −Δ𝑆𝑡 +Δ𝑆𝑡 Δ𝑆1 + Δ𝑆2 + Δ𝑆𝑡 − Δ𝑆𝑡 ≥ 0 エントロピーという量 は必ず増大する Point
  • 14. 確率熱力学略説 1/ • 確率熱力学では,(離散集合連続時間マルコフ過程)の エントロピーはどのように定義されるか? • 確率熱力学では,系(𝒑)は熱浴 𝑾 によって駆動されていると 考え,系と熱浴の確率的エントロピー変化( ሶ𝑠 𝑠𝑦𝑠 , ሶ𝑠 𝑏𝑎𝑡ℎ )を,次 のように定義する.(厳密には,導出することができる) 状態𝑖から,状態𝑗へ遷移したとき, ሶ𝑠𝑖→𝑗 𝑠𝑦𝑠 = ln 𝑝𝑖 − ln 𝑝𝑗 ሶ𝑠𝑖→𝑗 𝑏𝑎𝑡ℎ = ln 𝑊𝑖→𝑗 − ln 𝑊𝑗→𝑖 となる. ただし,これはある一つの遷移に着目したときの「確率的」 エントロピー変化であり,期待値としての変化ではない. 系と熱浴の確率的エントロピーを導入した Point d𝑝𝑖 𝑡 = d𝑡 ෍ 𝑗 𝑊𝑗→𝑖 𝑝𝑗(𝑡)
  • 15. 確率熱力学略説 2/ • 状態𝑖から,状態𝑗へ遷移したときの確率的エントロピー変化 ሶ𝑠𝑖→𝑗 𝑠𝑦𝑠 = ln 𝑝𝑖 − ln 𝑝𝑗 ሶ𝑠𝑖→𝑗 𝑏𝑎𝑡ℎ = ln 𝑊𝑖→𝑗 − ln 𝑊𝑗→𝑖 • 状態𝑖から,状態𝑗への遷移が時間𝑑𝑡で実現される確率は 𝑑𝑡𝑊𝑖→𝑗 𝑝𝑖 よって,確率的エントロピー変化の期待値(アンサンブル平均) すなわちエントロピー変化(dt間)は, 𝑑𝑡 ሶ𝑠𝑖→𝑗 𝑠𝑦𝑠 = ෍ 𝑖≠𝑗 𝑑𝑡𝑊𝑖→𝑗 𝑝𝑖 ሶ𝑠𝑖→𝑗 𝑠𝑦𝑠 = 𝑑𝑡 ෍ 𝑖≠𝑗 𝑊𝑖→𝑗 𝑝𝑖 ln 𝑝𝑖 𝑝𝑗 𝑑𝑡 ሶ𝑠𝑖→𝑗 𝑏𝑎𝑡ℎ = ෍ 𝑖≠𝑗 𝑑𝑡𝑊𝑖→𝑗 𝑝𝑖 ሶ𝑠𝑖→𝑗 𝑏𝑎𝑡ℎ = 𝑑𝑡 ෍ 𝑖≠𝑗 𝑊𝑖→𝑗 𝑝𝑖 ln 𝑊𝑖→𝑗 𝑊𝑗→𝑖 系と熱浴のエントロピー変化を計算した Point d𝑝𝑖 𝑡 = d𝑡 ෍ 𝑗 𝑊𝑗→𝑖 𝑝𝑗
  • 16. 確率熱力学略説 3/ • ここで,エントロピー変化の総和はどうなるかを調べる. ሶ𝑠𝑖→𝑗 𝑡𝑜𝑡 = ሶ𝑠𝑖→𝑗 𝑠𝑦𝑠 + ሶ𝑠𝑖→𝑗 𝑏𝑎𝑡ℎ = ෍ 𝑖≠𝑗 𝑊𝑖→𝑗 𝑝𝑖 ln 𝑝𝑖 𝑝𝑗 + ෍ 𝑖≠𝑗 𝑊𝑖→𝑗 𝑝𝑖 ln 𝑊𝑖→𝑗 𝑊𝑗→𝑖 = ෍ 𝑖≠𝑗 𝑊𝑖→𝑗 𝑝𝑖 ln 𝑝𝑖 𝑊𝑖→𝑗 𝑝𝑗 𝑊𝑗→𝑖 (a) • ここで,添え字(𝑖, 𝑗)を交換すると, ෍ 𝑖≠𝑗 𝑊𝑖→𝑗 𝑝𝑖 ln 𝑝𝑖 𝑊𝑖→𝑗 𝑝𝑗 𝑊𝑗→𝑖 = ෍ 𝑗≠𝑖 𝑊𝑗→𝑖 𝑝𝑗 ln 𝑝𝑗 𝑊𝑗→𝑖 𝑝𝑖 𝑊𝑖→𝑗 = ෍ 𝑗≠𝑖 −𝑊𝑗→𝑖 𝑝𝑗 ln 𝑝𝑖 𝑊𝑖→𝑗 𝑝𝑗 𝑊𝑗→𝑖 b • 𝑎 + 𝑏 をすると 2 × 𝑎 = 𝑎 + 𝑏 = ෍ 𝑖≠𝑗 𝑊𝑖→𝑗 𝑝𝑖 − 𝑊𝑗→𝑖 𝑝𝑗 ln 𝑝𝑖 𝑊𝑖→𝑗 − ln 𝑝𝑗 𝑊𝑗→𝑖 ≥ 0 よって, ሶ𝑠𝑖→𝑗 𝑡𝑜𝑡 ≥ 0 Point d𝑝𝑖 𝑡 = d𝑡 ෍ 𝑗 𝑊𝑗→𝑖 𝑝𝑗 この部分の 添え字のみ交換 and 符号が反転 符号が同じなので積は常に正 エントロピー 増大則!!
  • 17. 情報幾何学の 確率熱力学的解釈 1/ • 統計的長さℒには,どのような性質があるだろうか ℒ = න 𝑑𝑠 𝑑𝑡 𝑑𝑡 再掲 • コーシー・シュワルツの不等式 ‫׬‬ 𝑓 𝑥 𝑔 𝑥 𝑑𝑥 2 ≤ ‫׬‬ 𝑓 𝑥 2 𝑑𝑥 ⋅ ‫׬‬ 𝑔 𝑥 2 𝑑𝑥 を用いて, ℒ2 = න 𝑑𝑠 𝑑𝑡 ⋅ 1𝑑𝑡 2 ≤ න 𝑑𝑠 𝑑𝑡 2 𝑑𝑡 ⋅ න 1 2 𝑑𝑡 = 2𝒞𝜏 2𝒞と置く 1(定数)の積分 =かけた時間2𝒞𝜏 ≥ ℒ2 Point
  • 18. 情報幾何学の 確率熱力学的解釈 2/ • 𝒞 = 1 2 ‫׬‬ 𝑑𝑠 𝑑𝑡 2 𝑑𝑡 とは何なのか? 𝑑𝑠 𝑑𝑡 2 = 𝑑𝑠2 𝑑𝑡2 = ⋯ = − 𝑑 ሶ𝑠 𝑠𝑦𝑠 𝑑𝑡 とできる.また, ሶ𝑠 𝑠𝑦𝑠 + ሶ𝑠 𝑏𝑎𝑡ℎ = ሶ𝑠 𝑡𝑜𝑡であるので, 𝑑𝑠2 𝑑𝑡2 = − 𝑑 ሶ𝑠 𝑠𝑦𝑠 𝑑𝑡 = 𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ 𝑑𝑡 − 𝑑 ሶ𝑠 𝑡𝑜𝑡 𝑑𝑡 . 従って, 𝒞 = − 1 2 ‫׬‬ 𝑑 ሶ𝑠 𝑠𝑦𝑠 𝑑𝑡 𝑑𝑡 = 1 2 ‫׬‬ 𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ 𝑑𝑡 − 𝑑 ሶ𝑠 𝑡𝑜𝑡 𝑑𝑡 𝑑𝑡 . 𝒞 = 1 2 න 𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ 𝑑𝑡 − 𝑑 ሶ𝑠 𝑡𝑜𝑡 𝑑𝑡 𝑑𝑡 Point とても長い計算 過程だがやろう と思えばできる
  • 19. 情報幾何学の 確率熱力学的解釈 3/ • 𝒞 = − 1 2 ‫׬‬ 𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ 𝑑𝑡 − 𝑑 ሶ𝑠 𝑡𝑜𝑡 𝑑𝑡 𝑑𝑡 とはどんな量?? 平衡状態に近い場合を考えてみる⇒詳細つり合い条件が成立 𝑝𝑖 𝑊𝑖→𝑗 = 𝑝𝑗 𝑊𝑗→𝑖 • ሶ𝑠 𝑡𝑜𝑡 = ሶ𝑠𝑖→𝑗 𝑠𝑦𝑠 + ሶ𝑠𝑖→𝑗 𝑏𝑎𝑡ℎ = ln 𝑝𝑖 𝑊 𝑖→𝑗 𝑝 𝑗 𝑊 𝑗→𝑖 ⇒詳細つり合い条件下で,ln 𝑝𝑖 𝑊 𝑖→𝑗 𝑝 𝑗 𝑊 𝑗→𝑖 = ln 1 = 0 ⇒ 𝑑 ሶ𝑠 𝑡𝑜𝑡 𝑑𝑡 =0 • 𝑑 𝑑𝑡 ሶ𝑠𝑖→𝑗 𝑏𝑎𝑡ℎ = 𝑑 𝑑𝑡 ln 𝑊 𝑖→𝑗 𝑊 𝑗→𝑖 ∴ 𝑑 ሶ𝑠 𝑏𝑎𝑡ℎ 𝑑𝑡 ⋯ 𝒞 =熱力学的コスト____ Point 𝑊𝑖→𝑗は,ダイナミクスどのような法則に 従うのかを表す量であった. 従って,これが変化するということは 外部から与える必要のある 熱力学的(確率的)コストを表している. (詳細つり合い条件) 𝑑 ሶ𝑠∗ 𝑑𝑡 ≠ 𝑑 𝑑𝑡 ሶ𝑠∗ だよ 単位時間 当たりの 熱力学的 コスト 常に非負 ∵= 𝑑𝑠2 /𝑑𝑡2
  • 20. 情報幾何学の 確率熱力学的解釈 4/ • よって 2𝒞𝜏 ≥ ℒ2 ℒ: 統計的長さ,𝒞:熱力学的コスト,𝜏:時間 つまり,より確率分布の変化ℒを大きくするためには, その分(前頁で考えた)熱力学的コスト𝒞を大きくするか, より長い時間𝜏をかける必要がある, ということを表している. おわり Point