-
information
- information(surprisal)
- h(x)=−lnp(x)
- entropy
- H[x]=−∑xp(x)lnp(x)=−∫xp(x)lnp(x)dx
- expected information (expected surprisal)
-
thermodynamics
- 총 입자수N, i싱태에 ni개의 입자가 속함
- multiplicity
- W=∏ini!N! (Linus Pauling, 1969)
- the number of microstates corresponding to a macrostate
- N개의 입자가 가질 수 있는 총 상태의 수
- entropy
- S=NRlnW=klnW (JK−1) (Ralph Baierlein, 1999)
- H=N1lnW
- 만약 온도를 섭씨의 스케일을 따른 절대온도를 쓰지 않고, 적절하게 스케일링한 온도 (R∗absolute temperature)를 쓸 경우
- H=N1lnW=N1lnN!−N1∑ilnn!
- H=−limN→∞∑i(Nni)ln(Nni)=−∑ip(xi)lnp(xi)
- ∑ini=N
- p(xi)=limN→∞(ni/N) (입자가 xi상태에 속할 확률)
- ni/N비를 유지시키면서 N→∞
- lnN!≃NlnN−N (Stirling's approximation)
-
discrete distribution에서 entropy의 성질
- 0≤H
- p(xi)=1,p(xj=i)=0일때 H=0
- p(X)가 uniform할 때 H가 최대
- Lagrange multiplier 통해 증명
- functional
- L=−∑ip(xi)lnp(xi)+λ(∑ip(xi)−1)
- stationary point를 찾으면 모든 p(xi)값이 같은 경우가 됨
- second derivative를 구하면 음수로, 최대치임을 확인 가능
- ∂p(xi)∂p(xj)∂2H~=−Iijpi1
- Jensen's inequality를 통해서도 유도 가능
-
continuous distribution
- H[x]=−∫p(x)lnp(x)dx
- measure theory에서 실수 변수를 Δ너비의 인터벌로 쪼갠 뒤, 각 인터벌의 분포를 discrete로 가정 후, limΔ→0를 취하여 continuous한 경우에 대한 식을 얻을 수 있음
- H[x]=−∫p(x)lnp(x)dx
-
continuous distribution에서 entropy의 성질
- Lagrange multiplier적용하기 위하여 constraint셋업
- ∫−∞∞p(x)dx=1
- ∫−∞∞xp(x)dx=μ
- ∫−∞∞(x−μ)2p(x)dx=σ2
- functinal
- L=−∫−∞∞p(x)lnp(x)dx+λ1(∫−∞∞p(x)dx−1)+λ2(∫−∞∞xp(x)dx−μ)+λ3(∫−∞∞(x−μ)2p(x)dx−σ2)
- stationary point
- p(x)=exp{−1+λ1+λ2x+λ3(x−μ)2}
- p(x)=(2πσ2)1/21exp{−2σ2(x−μ)2}
- 가우시안 분포 하에서 엔트로피 최대가 된다는 것 확인 가능
- 가우시안 분포 하에서의 엔트로피
- H[x]=21{1+ln(2πσ2)}
- σ2이 클 수록 엔트로피가 증가
- σ2<1/(2πe)일 때, H(x)<0
-
conditional entropy
- H[y∣x]=−∫∫p(y,x)lnp(y∣x)dydx
- conditional probability에 대한 entropy
-
joint entropy
- H[x,y]=H[y∣x]+H[x]
- x와 y를 특정하기 위한 정보량은 x를 특정하기 위한 정보량과 x가 주어졌을 때 y를 특정하기 위한 정보량의 합 (덧셈임에 주의)
-
Kullback-Leibler divergence (relative entropy)
- DKL(p∥q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=−∫p(x)ln{p(x)q(x)}dx
- 비대칭임에 주의 (DKL(p∥q)=DKL(q∥p))
- 분포의 dissmilarity 척도
- 증명 : Jensen's inequality
- for convex function f(x)
- f(∑i=1Mλixi)≤∑i=1Mλif(xi)(λi≥0,∑iλi=1)
- f(E[x])≤E[f(x)]
- f(∫xp(x)dx)≤∫f(x)p(x)dx
- DKL(p∥q)=−∫p(x)ln{p(x)q(x)}dx≥−ln∫q(x)dx=0
- −lnx는 convex, ∫q(x)dx=1
- −∫p(x)lnq(x)dx
- p의 entropy(−∫p(x)lnp(x)dx)를 constant 취급할 경우, 앞 항(−∫p(x)lnq(x)dx)만 남음
- p가 조건부 레이블 분포, q가 조건부 예측 분포라고 할 때, 이 값은 곧 cross-entropy가 됨
- 이 값은 곧 negative log likelihood와 동일
- multinomial distribution(classification 문제)에서는 곧 cross-entropy error
- gaussian distribution(regression 문제)에서는 곧 SSE
- 조절 가능한 패러미터 θ에 종속된 parametric distribution q(x∣θ)를 통하여 알려지지 않은 분포 p(x)를 찾는 상황을 가정
- p(x)는 모르지만 p(x)에서 샘플링된 학습 데이터셋 (x1,⋯,xN)은 있는 상태, 데이터셋을 통하여 p(x)의 기대값 근사 가능
- 이 때, KLD를 구하면
- DKL(p∥q)≃N1∑n=1N{−lnq(xn∣θ)+lnp(xn)}
- 두 번째 항은 θ에 대하여 독립, 첫 번째 항은 negative log likelihood
-
mutual information
- I[x,y]=DKL(p(x,y)∥p(x)p(y))=−∫∫p(x,y)ln(p(x,y)p(x)p(y))dxdy
- 두 변수가 얼마나 독립적인지 척도
- I[x,y]≥0
- x와 y가 서로 독립일 때 I[x,y]=0
- I[x,y]=H[x]−H[x∣y]=H[x]−H[y∣x]