Bishop PRML - Ch1. Introduction (6)

Information Theory

information
- information(surprisal)
  - $h (x) = - \ln p (x)$
- entropy
  - $H [x] = - \sum_{x} p (x) \ln p (x) = - \int_{x} p (x) \ln p (x) d x$
  - expected information (expected surprisal)
thermodynamics
- 총 입자수 $N$ , $i$ 싱태에 $n_{i}$ 개의 입자가 속함
- multiplicity
  - $W = \frac{N!}{\prod_{i} n_{i}!}$ (Linus Pauling, 1969)
  - the number of microstates corresponding to a macrostate
  - N개의 입자가 가질 수 있는 총 상태의 수
- entropy
  - $S = \frac{R}{N} \ln W = k \ln W$ ( $J K^{- 1}$ ) (Ralph Baierlein, 1999)
  - $H = \frac{1}{N} \ln W$ $H = \frac{1}{N} ln W$
    - 만약 온도를 섭씨의 스케일을 따른 절대온도를 쓰지 않고, 적절하게 스케일링한 온도 ( $R * absolute temperature$ )를 쓸 경우
  - $H = \frac{1}{N} \ln W = \frac{1}{N} \ln N! - \frac{1}{N} \sum_{i} \ln n!$
  - $H = - \lim_{N \to \infty} \sum_{i} (\frac{n_{i}}{N}) \ln (\frac{n_{i}}{N}) = - \sum_{i} p (x_{i}) \ln p (x_{i})$ $H = - lim_{N \to \infty} \sum_{i} (\frac{n _{i}}{N}) ln (\frac{n _{i}}{N}) = - \sum_{i} p (x_{i}) ln p (x_{i})$
    - $\sum_{i} n_{i} = N$
    - $p (x_{i}) = \lim_{N \to \infty} (n_{i} / N)$ (입자가 $x_{i}$ 상태에 속할 확률)
    - $n_{i} / N$ $n_{i} / N$ 비를 유지시키면서 $N \to \infty$ $N \to \infty$
      - $\ln N! ≃ N \ln N - N$ (Stirling's approximation)
discrete distribution에서 entropy의 성질
- $0 \leq H$
- $p (x_{i}) = 1, p (x_{j \neq i}) = 0$ 일때 $H = 0$
- $p (X)$ $p (X)$ 가 uniform할 때 $H$ $H$ 가 최대
  - Lagrange multiplier 통해 증명
    - functional
      - $L = - \sum_{i} p (x_{i}) \ln p (x_{i}) + λ (\sum_{i} p (x_{i}) - 1)$
    - stationary point를 찾으면 모든 $p (x_{i})$ 값이 같은 경우가 됨
    - second derivative를 구하면 음수로, 최대치임을 확인 가능
      - $\frac{\partial^{2} \tilde{H}}{\partial p (x_{i}) \partial p (x_{j})} = - I_{i j} \frac{1}{p_{i}}$
  - Jensen's inequality를 통해서도 유도 가능
continuous distribution
- $H [x] = - \int p (x) \ln p (x) d x$ $H [x] = - \int p (x) ln p (x) d x$
  - measure theory에서 실수 변수를 $Δ$ 너비의 인터벌로 쪼갠 뒤, 각 인터벌의 분포를 discrete로 가정 후, $\lim_{Δ \to 0}$ 를 취하여 continuous한 경우에 대한 식을 얻을 수 있음
- $H [x] = - \int p (x) \ln p (x) d x$ $H [x] = - \int p (x) ln p (x) d x$
  - multivariable
continuous distribution에서 entropy의 성질
- Lagrange multiplier적용하기 위하여 constraint셋업
  - $\int_{- \infty}^{\infty} p (x) d x = 1$
  - $\int_{- \infty}^{\infty} x p (x) d x = μ$
  - $\int_{- \infty}^{\infty} (x - μ)^{2} p (x) d x = σ^{2}$
- functinal
  - $L = - \int_{- \infty}^{\infty} p (x) \ln p (x) d x + λ_{1} (\int_{- \infty}^{\infty} p (x) d x - 1) + λ_{2} (\int_{- \infty}^{\infty} x p (x) d x - μ) + λ_{3} (\int_{- \infty}^{\infty} (x - μ)^{2} p (x) d x - σ^{2})$
- stationary point
  - $p (x) = \exp {- 1 + λ_{1} + λ_{2} x + λ_{3} (x - μ)^{2}}$
  - $p (x) = \frac{1}{(2 π σ^{2})^{1 / 2}} \exp {- \frac{(x - μ)^{2}}{2 σ^{2}}}$ $p (x) = \frac{1}{( 2 π σ ^{2} ) ^{1/2}} exp {- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$
    - constraint 이용
- 가우시안 분포 하에서 엔트로피 최대가 된다는 것 확인 가능
- 가우시안 분포 하에서의 엔트로피
  - $H [x] = \frac{1}{2} {1 + \ln (2 π σ^{2})}$ $H [x] = \frac{1}{2} {1 + ln (2 π σ^{2})}$
    - $σ^{2}$ 이 클 수록 엔트로피가 증가
    - $σ^{2} < 1 / (2 π e)$ 일 때, $H (x) < 0$
conditional entropy
- $H [y ∣ x] = - \int \int p (y, x) \ln p (y ∣ x) d y d x$
- conditional probability에 대한 entropy
joint entropy
- $H [x, y] = H [y ∣ x] + H [x]$
- $x$ 와 $y$ 를 특정하기 위한 정보량은 $x$ 를 특정하기 위한 정보량과 $x$ 가 주어졌을 때 $y$ 를 특정하기 위한 정보량의 합 (덧셈임에 주의)
Kullback-Leibler divergence (relative entropy)
- $D_{K L} (p ∥ q) = - \int p (x) \ln q (x) d x - (- \int p (x) \ln p (x) d x) = - \int p (x) \ln {\frac{q (x)}{p (x)}} d x$
- 비대칭임에 주의 ( $D_{K L} (p ∥ q) \neq D_{K L} (q ∥ p)$ )
- 분포의 dissmilarity 척도
  - 증명 : Jensen's inequality
    - for convex function $f (x)$
    - $f (\sum_{i = 1}^{M} λ_{i} x_{i}) \leq \sum_{i = 1}^{M} λ_{i} f (x_{i}) (λ_{i} \geq 0, \sum_{i} λ_{i} = 1)$
    - $f (E [x]) \leq E [f (x)]$
    - $f (\int x p (x) d x) \leq \int f (x) p (x) d x$
    - $D_{K L} (p ∥ q) = - \int p (x) \ln {\frac{q (x)}{p (x)}} d x \geq - \ln \int q (x) d x = 0$ $D_{KL} (p ∥ q) = - \int p (x) ln {\frac{q ( x )}{p ( x )}} d x \geq - ln \int q (x) d x = 0$
      - $- \ln x$ 는 convex, $\int q (x) d x = 1$
- $- \int p (x) \ln q (x) d x$ $- \int p (x) ln q (x) d x$
  - $p$ 의 entropy( $- \int p (x) \ln p (x) d x$ )를 constant 취급할 경우, 앞 항( $- \int p (x) \ln q (x) d x$ )만 남음
  - $p$ $p$ 가 조건부 레이블 분포, $q$ $q$ 가 조건부 예측 분포라고 할 때, 이 값은 곧 cross-entropy가 됨
    - 이 값은 곧 negative log likelihood와 동일
    - multinomial distribution(classification 문제)에서는 곧 cross-entropy error
    - gaussian distribution(regression 문제)에서는 곧 SSE
- 조절 가능한 패러미터 $θ$ $θ$ 에 종속된 parametric distribution $q (x ∣ θ)$ $q (x ∣ θ)$ 를 통하여 알려지지 않은 분포 $p (x)$ $p (x)$ 를 찾는 상황을 가정
  - $p (x)$ 는 모르지만 $p (x)$ 에서 샘플링된 학습 데이터셋 $(x_{1}, \dots, x_{N})$ 은 있는 상태, 데이터셋을 통하여 $p (x)$ 의 기대값 근사 가능
  - 이 때, KLD를 구하면
    - $D_{K L} (p ∥ q) ≃ \frac{1}{N} \sum_{n = 1}^{N} {- \ln q (x_{n} ∣ θ) + \ln p (x_{n})}$
  - 두 번째 항은 $θ$ 에 대하여 독립, 첫 번째 항은 negative log likelihood
mutual information
- $I [x, y] = D_{K L} (p (x, y) ∥ p (x) p (y)) = - \int \int p (x, y) \ln (\frac{p (x) p (y)}{p (x, y)}) d x d y$
- 두 변수가 얼마나 독립적인지 척도
- $I [x, y] \geq 0$
- $x$ 와 $y$ 가 서로 독립일 때 $I [x, y] = 0$
- $I [x, y] = H [x] - H [x ∣ y] = H [x] - H [y ∣ x]$