Bishop PRML - Ch2. Probability Distributions (1)

Binary Variables

Bernoulli distribution
- $Bern (x ∣ μ) = μ^{x} (1 - μ)^{1 - x}$ $Bern (x ∣ μ) = μ^{x} (1 - μ)^{1 - x}$
  - $p (x = 1 ∣ μ) = 1 - p (x = 0 ∣ μ) = μ$ 일 때의 분포
- mean
  - $E [x] = μ$
- variance
  - $var [x] = μ (1 - μ)$
- likelihood
  - $p (D ∣ μ) = \prod_{n = 1}^{N} p (x_{n} ∣ μ) = \prod_{n = 1}^{N} μ^{x_{n}} (1 - μ)^{1 - x_{n}}$
- log likelihood
  - $\ln p (D ∣ μ) = \sum_{n = 1}^{N} \ln p (x_{n} ∣ μ) = \sum_{n = 1}^{N} {x_{n} \ln μ + (1 - x_{n}) \ln (1 - μ)}$
- MLE
  - $μ_{ML} = \frac{1}{N} \sum_{n = 1}^{M} x_{n}$
  - log likelihood을 미분하여, extrema를 구함으로서 구할 수 있음
  - sample mean과 동일함에 유의
binomial distribution
- $Bin (m ∣ N, μ) = (\frac{N}{m}) μ^{m} (1 - μ)^{N - m}$ $Bin (m ∣ N, μ) = (m N) μ^{m} (1 - μ)^{N - m}$
  - N회의 Bernoulli 독십시행결과 m번의 성공을 할 확률
  - $(\frac{N}{m}) = \frac{N!}{(N - m)! m!}$
- mean
  - $E [m] = \sum_{m = 0}^{N} m Bin (m ∣ N, μ) = N μ$
- variance
  - $var [m] = \sum_{m = 0}^{N} (m - E [m])^{2} Bin (m ∣ N, μ) = N μ (1 - μ)$
beta function / gamma function
- Euler integral
  - Euler integral of first kind (beta function)
    - $B (x, y) = \int_{0}^{1} t^{x - 1} (1 - t)^{y - 1} d t = \frac{Γ (x) Γ (y)}{Γ (x + y)}$
  - Euler integral of second kind (gamma function)
    - $Γ (x) = \int_{0}^{\infty} \frac{t^{x - 1}}{e^{t}} d t$
- gamma function
  - factorial의 실수에 대한 일반화
  - 증명
    - $Γ (x + 1) = \int_{0}^{\infty} \frac{t^{x}}{e^{t}} d t = {[- t^{x} e^{- t}]}_{t = 0}^{t = \infty} - (\int_{0}^{\infty} - x t^{x - 1} e^{- t} d t) = \lim_{t \to \infty} (- t^{x} e^{- t}) - 0 + (\int_{0}^{\infty} x t^{x - 1} e^{- t} d t) = x \int_{0}^{\infty} t^{x - 1} e^{- t} d t = x Γ (x)$ (L'Hospital's Rule)
    - $Γ (x + 1) = x Γ (x)$
    - $Γ (1) = 1, 0! = 1$
    - $∴ Γ (n + 1) = n!, Γ (n) = (n - 1)!$
- beta function
  - $B (x, y) = \int_{0}^{1} t^{x - 1} (1 - t)^{y - 1} d t = \frac{Γ (x) Γ (y)}{Γ (x + y)}$
  - $B (n, m) = \frac{(n - 1)! (m - 1)!}{(n + m - 2)!}$
beta distribution
- $Beta (μ ∣ a, b) = \frac{Γ (a + b)}{Γ (a) Γ (b)} μ^{a - 1} (1 - μ)^{b - 1}$ $Beta (μ ∣ a, b) = \frac{Γ ( a + b )}{Γ ( a ) Γ ( b )} μ^{a - 1} (1 - μ)^{b - 1}$
  - $Γ (x) = \int_{0}^{\infty} u^{x - 1} e^{- u} d u$
  - Binomial distribution의 conjugate prior
  - $f (x; α, β) = \frac{x^{α - 1} (1 - x)^{β - 1}}{\int_{0}^{1} u^{α - 1} (1 - u)^{β - 1} d u} = \frac{x^{α - 1} (1 - x)^{β - 1}}{B (α, β)} = \frac{Γ (α + β)}{Γ (α) Γ (β)} x^{α - 1} (1 - x)^{β - 1}$
  - 잘 보면 binomial distribution식의 실수판임, 이를 염두에 두고 보면 좀 더 연관성이 보일 것
    - 이를 고려할 때, 두 모수를 각각 시행횟수로 볼 수 있음
    - 본문에서 a와 b를 유효 관찰수로 해석할 수 있다는 소리는 바로 이런 의미
- mean
  - $E [μ] = \frac{a}{a + b}$
- variance
  - $var [μ] = \frac{a b}{(a + b)^{2} (a + b + 1)}$
posterior of binomial likelihood & beta prior
- $p (μ ∣ m, l, a, b) \propto μ^{m + a - 1} (1 - μ)^{l + b - 1}$
- $p (μ ∣ m, l, a, b) = \frac{Γ (m + a + l + b)}{Γ (m + a) Γ (l + b)} μ^{m + a - 1} (1 - μ)^{l + b - 1}$
- 이를 최대화하는 방식이 바로 MAP
- posterior값을 다음 MAP에서의 prior로 이용하는 방식을 통하여 커버 샘플수를 점점 키워가며 학습하는 순차적 접근법을 쓸 수 있음 (small batch로 나누어 학습할 수 있음)
prediction with likelihood & prior
- $p (x = 1 ∣ D) = \int_{0}^{1} p (x = 1 ∣ μ) p (μ ∣ D) d u = \int_{0}^{1} μ p (μ ∣ D) d u = E [μ ∣ D]$
- $p (x = 1 ∣ D) = \frac{m + a}{m + a + l + b}$
- $m, l \to \infty$ 일 경우, $p (x = 1 ∣ D) = \frac{m}{m + l}$ 이 되어, MLE의 결과와 동일해짐
- beta distribution의로 표현된 prior은 관측값의 수가 증가할 수록(a, b의 값이 클 수록) $Beta (μ ∣ a, b)$ $Beta (μ ∣ a, b)$ 의 그래프가 뾰족해짐
  - 데이터가 많을 수록 평균적으로 posterior의 불확실성 감소 (posterior가 나타내는 분포 자체는 stochastic하나, 분포의 모수가 deterministic해짐)
  - \mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \mathbb{E}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]
    - $\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \int{p(\boldsymbol{\theta})\boldsymbol{\theta}\,d\boldsymbol{\theta}}$
    - $\mathbb{E}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]] = \int\left\{\int{\boldsymbol{\theta}p(\boldsymbol{\theta}{\mid}\mathcal{D})\,d\boldsymbol{\theta}}\right\}p(\mathcal{D})\,d\mathcal{D}$
    - posterior평균의 데이터 분포에 대한 기대값은 prior평균과 동일
  - \operatorname{var}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \mathbb{E}_\mathcal{D}[\operatorname{var}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]+\operatorname{var}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]
    - posterior분산의 데이터 분포에 대한 기대값은 prior분산보다 작음
    - 데이터 분포에 대한 기대값임에 유의, 데이터 분포 내의 subset에 대해서는 다를 수 있음