2. Entropy/KL-Divergence10-MIN
MATHEMATICS
Entropy and Cross Entropy
H(X) (x)
1
PX
log P ( ) logxX Pwhere ( ) is pmf of discrete R.V. XxXx∈∑ (x)
1
PX
= =[ ]
1. 엔트로피(Entropy)
엔트로피와 교차 엔트로피
[사전적 정의] 열역학적 계의 유용하지 않은 (일로 변환할 수 없는) 에너지의 흐름을 설명할 때 이용되는 상태 함수.
[통계적 의의] 어떤 사건이 정보적 측면에서 얼마나 중요한가를 반영한 로그 지표에 대한 기댓값을 구한 것.
사건 A
사건 B
귀한 정보
흔한 정보
낮은 확률값
높은 확률값
드물게 발생한다
자주 발생한다
log (x)
1
PX
확률 값이 작으면 값이 커지고
확률 값이 커지면 값이 작아짐
바나나(0.5) 딸기(0.3) 포도(0.2)
무작위로 주머니에서 과일 하나를 뽑는 시행 엔트로피
H(X)= 0.5 × 0.3 × 0.2++ ×
log 0.5( )
-1
바나나 =
0.3010=
log 0.3( )
-1
딸기 =
0.5229=
log 0.2( )
-1
포도 =
0.6990=
3. Entropy/KL-Divergence10-MIN
MATHEMATICS
H(P, Q) Q ( )xXP ( )logxXx∈∑= - +P ( )log logxX P ( )xX( )1- Q ( )xXQ ( )xX ( )1-x∑= -
+p( )log logx p( )x( )1- q( )xq( )x ( )1-x∑= -
2. 교차 엔트로피(Cross Entropy)
EXAMPLE
실제 분포와 예측 분포가 다르다는 특징을 이용해, 실제 분포를 가정 후 예측한 분포에 따른 정보 획득의 유용성을 나타낸 것.
x
x₁ x₂ x₃ x₅ x₇x₄ x₆ x₈ x₉ x₁₀
p
∑ p(x )=10≤p(x )≤1,
a finite discrete distribution
ii i
=- [ {p(x₁) log q(x₁)+(1-p(x₁)) log (1-q(x₁))} + {p(x₂) log q(x₂)+(1-p(x₂)) log (1-q(x₂))} + ]N
1
={p(x₂) log q(x₂)+ +p(x₁₀) log q(x₁₀)}
-∑ p(x) log q(x) =-{p(x₁) log q(x₁)+p(x₂) log q(x₂)+ +p(x₁₀) log q(x₁₀)}
N번 더하고 N으로 나누기 (식에 변화없음)
여기서의 N=10
4. Entropy/KL-Divergence10-MIN
MATHEMATICS
Kullback-Leibler Divergence and Entropy
1. Kullback-Leibler(KL) Divergence의 정의
KL Divergence와 엔트로피
( ||D ) = p(x) p(x)q(x) log( )P QKL p(x)- - [ ]-log( ) = [P에대한 Q의 교차 엔트로피] [P의 엔트로피]-
x ∈
∑ x ∈
∑
<Discrete>
( ||D ) = P log ( )( )x
Q(x)
P(x)-x ∈
∑P QKL
<Continuous>
( ||D )= p(x)log dx( )q(x)
p(x)
-∞
∞
P QKL
두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해
샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산.
2. KL Divergence와 엔트로피의 관계
이산적인 변수에 대하여, KL-Divergence는 특정 확률분포(P)에 대한 다른 확률 분포(Q)의 교차 엔트로피(Cross Entropy)와 특정
확률분포(P)의 엔트로피의 차로 나타낼 수 있다.
5. Entropy/KL-Divergence10-MIN
MATHEMATICS
( ||D ) ≥P 0QKL
3. KL Divergence의 특징
1) 음수의 값을 가지지 않는다
( ||Dwhere ) = P log ( )( )x
Q(x)
P(x)-x ∈
∑P P Qand is pmf,QKL
y = p ,i x = piq /i
⇔y pi pi
qi
pi
0,>∀ lny y ( )≤x x - 1 ln ( )≤ - 1
qi
pi
qi
pi
qi
pi
qi
pi
qi
pi
p∑ ∑ii i piln ( )≥ -- - 1
( ||D ) 0P QKL
는 확률분포
p∑ ∑ii i q-- i ∑i p =0 ∵ ∴+ i
∑ ,i pi ∑i qiln ≥ ≥p∑ ii- ln =
ln if f(x) f(x) is diffable and cts on [ x ],1=≤x ln ,x
f (c) c< 1,1
f(1) f(x)-
- x
= =
xx 10 , by MVT,
there exists So, f(1) - f(x) 1 - x
⇒
≥
-lnx 1 - x≥ ⇒ lnx x - 1≤
c ∈(x, 1 ) such that Since.
,<<∀ - 1 ∵
f (c) = ≥ 1 ,
6. Entropy/KL-Divergence10-MIN
MATHEMATICS
2) ‘KL Divergence의 값이 0이다’와 ‘확률분포 P와 Q가 같다’는 동치이다.
log=f(x) x is strictly convex,
( )f is strictly convex if ∈x₁ x₂ ∈ ( ) f (tx₁+(1-t)x₂) f( f()t x₁ +< (1-t) x₂),0,1X,≠∀ t∀
∵
( ||D ) ⇔=P 0QKL
( ||D ) =P 0 if and only if P = QQKL
=P(x) Q(x), x∈∀
3) 일반적으로, 두 분포의 KL Divergence의 값은 어떤 분포를 기준으로 할 것이냐에 따라 달라진다(비대칭성).
( ||D ) ≠Pgenerally, QKL ( ||D )Q PKL (같을 때는 언제인가?)