SlideShare a Scribd company logo
1 of 6
Download to read offline
10-MIN
MATHEMATICS
10분 동안 십분(十分) 즐기는 수학
Entropy/KL-Divergence10-MIN
MATHEMATICS
Entropy and Cross Entropy
H(X) (x)
1
PX
log P ( ) logxX Pwhere ( ) is pmf of discrete R.V. XxXx∈∑ (x)
1
PX
= =[ ]
1. 엔트로피(Entropy)
엔트로피와 교차 엔트로피
[사전적 정의] 열역학적 계의 유용하지 않은 (일로 변환할 수 없는) 에너지의 흐름을 설명할 때 이용되는 상태 함수.
[통계적 의의] 어떤 사건이 정보적 측면에서 얼마나 중요한가를 반영한 로그 지표에 대한 기댓값을 구한 것.
사건 A
사건 B
귀한 정보
흔한 정보
낮은 확률값
높은 확률값
드물게 발생한다
자주 발생한다
log (x)
1
PX
확률 값이 작으면 값이 커지고
확률 값이 커지면 값이 작아짐
바나나(0.5) 딸기(0.3) 포도(0.2)
무작위로 주머니에서 과일 하나를 뽑는 시행 엔트로피
H(X)= 0.5 × 0.3 × 0.2++ ×
log 0.5( )
-1
바나나 =
0.3010=
log 0.3( )
-1
딸기 =
0.5229=
log 0.2( )
-1
포도 =
0.6990=
Entropy/KL-Divergence10-MIN
MATHEMATICS
H(P, Q) Q ( )xXP ( )logxXx∈∑= - +P ( )log logxX P ( )xX( )1- Q ( )xXQ ( )xX ( )1-x∑= -
+p( )log logx p( )x( )1- q( )xq( )x ( )1-x∑= -
2. 교차 엔트로피(Cross Entropy)
EXAMPLE
실제 분포와 예측 분포가 다르다는 특징을 이용해, 실제 분포를 가정 후 예측한 분포에 따른 정보 획득의 유용성을 나타낸 것.
x
x₁ x₂ x₃ x₅ x₇x₄ x₆ x₈ x₉ x₁₀
p
∑ p(x )=10≤p(x )≤1,
a finite discrete distribution
ii i
=- [ {p(x₁) log q(x₁)+(1-p(x₁)) log (1-q(x₁))} + {p(x₂) log q(x₂)+(1-p(x₂)) log (1-q(x₂))} + ]N
1
={p(x₂) log q(x₂)+ +p(x₁₀) log q(x₁₀)}
-∑ p(x) log q(x) =-{p(x₁) log q(x₁)+p(x₂) log q(x₂)+ +p(x₁₀) log q(x₁₀)}
N번 더하고 N으로 나누기 (식에 변화없음)
여기서의 N=10
Entropy/KL-Divergence10-MIN
MATHEMATICS
Kullback-Leibler Divergence and Entropy
1. Kullback-Leibler(KL) Divergence의 정의
KL Divergence와 엔트로피
( ||D ) = p(x) p(x)q(x) log( )P QKL p(x)- - [ ]-log( ) = [P에대한 Q의 교차 엔트로피] [P의 엔트로피]-
x ∈
∑ x ∈
∑
<Discrete>
( ||D ) = P log ( )( )x
Q(x)
P(x)-x ∈
∑P QKL
<Continuous>
( ||D )= p(x)log dx( )q(x)
p(x)
-∞
∞
P QKL
두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해
샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산.
2. KL Divergence와 엔트로피의 관계
이산적인 변수에 대하여, KL-Divergence는 특정 확률분포(P)에 대한 다른 확률 분포(Q)의 교차 엔트로피(Cross Entropy)와 특정
확률분포(P)의 엔트로피의 차로 나타낼 수 있다.
Entropy/KL-Divergence10-MIN
MATHEMATICS
( ||D ) ≥P 0QKL
3. KL Divergence의 특징
1) 음수의 값을 가지지 않는다
( ||Dwhere ) = P log ( )( )x
Q(x)
P(x)-x ∈
∑P P Qand is pmf,QKL
y = p ,i x = piq /i
⇔y pi pi
qi
pi
0,>∀ lny y ( )≤x x - 1 ln ( )≤ - 1
qi
pi
qi
pi
qi
pi
qi
pi
qi
pi
p∑ ∑ii i piln ( )≥ -- - 1
( ||D ) 0P QKL
는 확률분포
p∑ ∑ii i q-- i ∑i p =0 ∵ ∴+ i
∑ ,i pi ∑i qiln ≥ ≥p∑ ii- ln =
ln if f(x) f(x) is diffable and cts on [ x ],1=≤x ln ,x
f (c) c< 1,1
f(1) f(x)-
- x
= =
xx 10 , by MVT,
there exists So, f(1) - f(x) 1 - x
⇒
≥
-lnx 1 - x≥ ⇒ lnx x - 1≤
c ∈(x, 1 ) such that Since.
,<<∀ - 1 ∵
f (c) = ≥ 1 ,
Entropy/KL-Divergence10-MIN
MATHEMATICS
2) ‘KL Divergence의 값이 0이다’와 ‘확률분포 P와 Q가 같다’는 동치이다.
log=f(x) x is strictly convex,
( )f is strictly convex if ∈x₁ x₂ ∈ ( ) f (tx₁+(1-t)x₂) f( f()t x₁ +< (1-t) x₂),0,1X,≠∀ t∀
∵
( ||D ) ⇔=P 0QKL
( ||D ) =P 0 if and only if P = QQKL
=P(x) Q(x), x∈∀
3) 일반적으로, 두 분포의 KL Divergence의 값은 어떤 분포를 기준으로 할 것이냐에 따라 달라진다(비대칭성).
( ||D ) ≠Pgenerally, QKL ( ||D )Q PKL (같을 때는 언제인가?)

More Related Content

What's hot

What's hot (20)

RTBにおける機械学習の活用事例
RTBにおける機械学習の活用事例RTBにおける機械学習の活用事例
RTBにおける機械学習の活用事例
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 
SchNet: A continuous-filter convolutional neural network for modeling quantum...
SchNet: A continuous-filter convolutional neural network for modeling quantum...SchNet: A continuous-filter convolutional neural network for modeling quantum...
SchNet: A continuous-filter convolutional neural network for modeling quantum...
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル
 
これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
십분딥러닝_16_WGAN (Wasserstein GANs)
십분딥러닝_16_WGAN (Wasserstein GANs)십분딥러닝_16_WGAN (Wasserstein GANs)
십분딥러닝_16_WGAN (Wasserstein GANs)
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
 
「ランダムフォレスト回帰」のハイパーパラメーター
「ランダムフォレスト回帰」のハイパーパラメーター「ランダムフォレスト回帰」のハイパーパラメーター
「ランダムフォレスト回帰」のハイパーパラメーター
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
グラフを扱おう:最短路問題
グラフを扱おう:最短路問題グラフを扱おう:最短路問題
グラフを扱おう:最短路問題
 
lispmeetup#63 Common Lispでゼロから作るDeep Learning
lispmeetup#63 Common Lispでゼロから作るDeep Learninglispmeetup#63 Common Lispでゼロから作るDeep Learning
lispmeetup#63 Common Lispでゼロから作るDeep Learning
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験
 
[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization
 

More from HyunKyu Jeon

십분딥러닝_11_LSTM (Long Short Term Memory)
십분딥러닝_11_LSTM (Long Short Term Memory)십분딥러닝_11_LSTM (Long Short Term Memory)
십분딥러닝_11_LSTM (Long Short Term Memory)
HyunKyu Jeon
 

More from HyunKyu Jeon (20)

[PR-358] Training Differentially Private Generative Models with Sinkhorn Dive...
[PR-358] Training Differentially Private Generative Models with Sinkhorn Dive...[PR-358] Training Differentially Private Generative Models with Sinkhorn Dive...
[PR-358] Training Differentially Private Generative Models with Sinkhorn Dive...
 
Super tickets in pre trained language models
Super tickets in pre trained language modelsSuper tickets in pre trained language models
Super tickets in pre trained language models
 
Synthesizer rethinking self-attention for transformer models
Synthesizer rethinking self-attention for transformer models Synthesizer rethinking self-attention for transformer models
Synthesizer rethinking self-attention for transformer models
 
Domain Invariant Representation Learning with Domain Density Transformations
Domain Invariant Representation Learning with Domain Density TransformationsDomain Invariant Representation Learning with Domain Density Transformations
Domain Invariant Representation Learning with Domain Density Transformations
 
Meta back translation
Meta back translationMeta back translation
Meta back translation
 
Maxmin qlearning controlling the estimation bias of qlearning
Maxmin qlearning controlling the estimation bias of qlearningMaxmin qlearning controlling the estimation bias of qlearning
Maxmin qlearning controlling the estimation bias of qlearning
 
Adversarial Attack in Neural Machine Translation
Adversarial Attack in Neural Machine TranslationAdversarial Attack in Neural Machine Translation
Adversarial Attack in Neural Machine Translation
 
십분딥러닝_19_ALL_ABOUT_CNN
십분딥러닝_19_ALL_ABOUT_CNN십분딥러닝_19_ALL_ABOUT_CNN
십분딥러닝_19_ALL_ABOUT_CNN
 
(edited) 십분딥러닝_17_DIM(DeepInfoMax)
(edited) 십분딥러닝_17_DIM(DeepInfoMax)(edited) 십분딥러닝_17_DIM(DeepInfoMax)
(edited) 십분딥러닝_17_DIM(DeepInfoMax)
 
십분딥러닝_18_GumBolt (VAE with Boltzmann Machine)
십분딥러닝_18_GumBolt (VAE with Boltzmann Machine)십분딥러닝_18_GumBolt (VAE with Boltzmann Machine)
십분딥러닝_18_GumBolt (VAE with Boltzmann Machine)
 
십분딥러닝_17_DIM(Deep InfoMax)
십분딥러닝_17_DIM(Deep InfoMax)십분딥러닝_17_DIM(Deep InfoMax)
십분딥러닝_17_DIM(Deep InfoMax)
 
십분딥러닝_15_SSD(Single Shot Multibox Detector)
십분딥러닝_15_SSD(Single Shot Multibox Detector)십분딥러닝_15_SSD(Single Shot Multibox Detector)
십분딥러닝_15_SSD(Single Shot Multibox Detector)
 
십분딥러닝_14_YOLO(You Only Look Once)
십분딥러닝_14_YOLO(You Only Look Once)십분딥러닝_14_YOLO(You Only Look Once)
십분딥러닝_14_YOLO(You Only Look Once)
 
십분딥러닝_13_Transformer Networks (Self Attention)
십분딥러닝_13_Transformer Networks (Self Attention)십분딥러닝_13_Transformer Networks (Self Attention)
십분딥러닝_13_Transformer Networks (Self Attention)
 
십분딥러닝_12_어텐션(Attention Mechanism)
십분딥러닝_12_어텐션(Attention Mechanism)십분딥러닝_12_어텐션(Attention Mechanism)
십분딥러닝_12_어텐션(Attention Mechanism)
 
십분딥러닝_11_LSTM (Long Short Term Memory)
십분딥러닝_11_LSTM (Long Short Term Memory)십분딥러닝_11_LSTM (Long Short Term Memory)
십분딥러닝_11_LSTM (Long Short Term Memory)
 
십분딥러닝_10_R-CNN
십분딥러닝_10_R-CNN십분딥러닝_10_R-CNN
십분딥러닝_10_R-CNN
 
십분딥러닝_9_VAE(Variational Autoencoder)
십분딥러닝_9_VAE(Variational Autoencoder)십분딥러닝_9_VAE(Variational Autoencoder)
십분딥러닝_9_VAE(Variational Autoencoder)
 
십분딥러닝_7_GANs (Edited)
십분딥러닝_7_GANs (Edited)십분딥러닝_7_GANs (Edited)
십분딥러닝_7_GANs (Edited)
 
십분딥러닝_8_AutoEncoder
십분딥러닝_8_AutoEncoder십분딥러닝_8_AutoEncoder
십분딥러닝_8_AutoEncoder
 

십분수학_Entropy and KL-Divergence

  • 2. Entropy/KL-Divergence10-MIN MATHEMATICS Entropy and Cross Entropy H(X) (x) 1 PX log P ( ) logxX Pwhere ( ) is pmf of discrete R.V. XxXx∈∑ (x) 1 PX = =[ ] 1. 엔트로피(Entropy) 엔트로피와 교차 엔트로피 [사전적 정의] 열역학적 계의 유용하지 않은 (일로 변환할 수 없는) 에너지의 흐름을 설명할 때 이용되는 상태 함수. [통계적 의의] 어떤 사건이 정보적 측면에서 얼마나 중요한가를 반영한 로그 지표에 대한 기댓값을 구한 것. 사건 A 사건 B 귀한 정보 흔한 정보 낮은 확률값 높은 확률값 드물게 발생한다 자주 발생한다 log (x) 1 PX 확률 값이 작으면 값이 커지고 확률 값이 커지면 값이 작아짐 바나나(0.5) 딸기(0.3) 포도(0.2) 무작위로 주머니에서 과일 하나를 뽑는 시행 엔트로피 H(X)= 0.5 × 0.3 × 0.2++ × log 0.5( ) -1 바나나 = 0.3010= log 0.3( ) -1 딸기 = 0.5229= log 0.2( ) -1 포도 = 0.6990=
  • 3. Entropy/KL-Divergence10-MIN MATHEMATICS H(P, Q) Q ( )xXP ( )logxXx∈∑= - +P ( )log logxX P ( )xX( )1- Q ( )xXQ ( )xX ( )1-x∑= - +p( )log logx p( )x( )1- q( )xq( )x ( )1-x∑= - 2. 교차 엔트로피(Cross Entropy) EXAMPLE 실제 분포와 예측 분포가 다르다는 특징을 이용해, 실제 분포를 가정 후 예측한 분포에 따른 정보 획득의 유용성을 나타낸 것. x x₁ x₂ x₃ x₅ x₇x₄ x₆ x₈ x₉ x₁₀ p ∑ p(x )=10≤p(x )≤1, a finite discrete distribution ii i =- [ {p(x₁) log q(x₁)+(1-p(x₁)) log (1-q(x₁))} + {p(x₂) log q(x₂)+(1-p(x₂)) log (1-q(x₂))} + ]N 1 ={p(x₂) log q(x₂)+ +p(x₁₀) log q(x₁₀)} -∑ p(x) log q(x) =-{p(x₁) log q(x₁)+p(x₂) log q(x₂)+ +p(x₁₀) log q(x₁₀)} N번 더하고 N으로 나누기 (식에 변화없음) 여기서의 N=10
  • 4. Entropy/KL-Divergence10-MIN MATHEMATICS Kullback-Leibler Divergence and Entropy 1. Kullback-Leibler(KL) Divergence의 정의 KL Divergence와 엔트로피 ( ||D ) = p(x) p(x)q(x) log( )P QKL p(x)- - [ ]-log( ) = [P에대한 Q의 교차 엔트로피] [P의 엔트로피]- x ∈ ∑ x ∈ ∑ <Discrete> ( ||D ) = P log ( )( )x Q(x) P(x)-x ∈ ∑P QKL <Continuous> ( ||D )= p(x)log dx( )q(x) p(x) -∞ ∞ P QKL 두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산. 2. KL Divergence와 엔트로피의 관계 이산적인 변수에 대하여, KL-Divergence는 특정 확률분포(P)에 대한 다른 확률 분포(Q)의 교차 엔트로피(Cross Entropy)와 특정 확률분포(P)의 엔트로피의 차로 나타낼 수 있다.
  • 5. Entropy/KL-Divergence10-MIN MATHEMATICS ( ||D ) ≥P 0QKL 3. KL Divergence의 특징 1) 음수의 값을 가지지 않는다 ( ||Dwhere ) = P log ( )( )x Q(x) P(x)-x ∈ ∑P P Qand is pmf,QKL y = p ,i x = piq /i ⇔y pi pi qi pi 0,>∀ lny y ( )≤x x - 1 ln ( )≤ - 1 qi pi qi pi qi pi qi pi qi pi p∑ ∑ii i piln ( )≥ -- - 1 ( ||D ) 0P QKL 는 확률분포 p∑ ∑ii i q-- i ∑i p =0 ∵ ∴+ i ∑ ,i pi ∑i qiln ≥ ≥p∑ ii- ln = ln if f(x) f(x) is diffable and cts on [ x ],1=≤x ln ,x f (c) c< 1,1 f(1) f(x)- - x = = xx 10 , by MVT, there exists So, f(1) - f(x) 1 - x ⇒ ≥ -lnx 1 - x≥ ⇒ lnx x - 1≤ c ∈(x, 1 ) such that Since. ,<<∀ - 1 ∵ f (c) = ≥ 1 ,
  • 6. Entropy/KL-Divergence10-MIN MATHEMATICS 2) ‘KL Divergence의 값이 0이다’와 ‘확률분포 P와 Q가 같다’는 동치이다. log=f(x) x is strictly convex, ( )f is strictly convex if ∈x₁ x₂ ∈ ( ) f (tx₁+(1-t)x₂) f( f()t x₁ +< (1-t) x₂),0,1X,≠∀ t∀ ∵ ( ||D ) ⇔=P 0QKL ( ||D ) =P 0 if and only if P = QQKL =P(x) Q(x), x∈∀ 3) 일반적으로, 두 분포의 KL Divergence의 값은 어떤 분포를 기준으로 할 것이냐에 따라 달라진다(비대칭성). ( ||D ) ≠Pgenerally, QKL ( ||D )Q PKL (같을 때는 언제인가?)