Bishop PRML - Ch2. Probability Distributions (3)

The Gaussian Distribution

Gaussian distribution
- 가우시안 분포의 핵심은, exponent term이 quadratic form인 분포라는 것
  (정규화가 불가능한 경우와, 복소수 공간을 고려하지 않은 경우라면 위의 내용만 성립할 경우 항상 가우시안 분포임)
- univariate Gaussian distribution
  - $N (x ∣ μ, σ^{2}) = \frac{1}{(2 π σ^{2})^{1 / 2}} \exp {- \frac{1}{2 σ^{2}} (x - μ)^{2}}$
- multivariate Gaussian distribution
  - $N (x ∣ μ, Σ) = \frac{1}{(2 π)^{D / 2}} \frac{1}{∣ Σ ∣^{1 / 2}} \exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}$
- CLT (central limit theorem)
  - 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워짐
  - 때문에, 다양한 경우에 대하여 가장 빈번하게 쓰이는 분포
- Mahalanobis distance
  - $Δ^{2} = (x - μ)^{T} Σ^{- 1} (x - μ)$
  - Gaussian distribution의 exponential항
  - Euclidian distance를 분산(공분산)으로 나눈 거리
  - normalized된 Euclidian distance라고 생각하면 좋음
  - 이론적으로 중요한 내용은 아니지만, Mahalanobis distance를 구할 때 full rank가 아닌 경우 inverse covariance matrix를 구하기 어려움
    때문에, 실용적으로는 Moore-Penrose pseudoinverse를 이용함
    pseudoinverse는 SVD(singular value decomposition을 통하여 아래와 같이 구할 수 있음)
    - $D_{M}^{2} = (x - μ)^{T} Σ^{- 1} (x - μ) \overline{X_{D}} = {U S V}^{T} Σ = {\overline{X_{D}}}^{T} \overline{X_{D}} = {V S U}^{T} {U S V}^{T} = {V S S V}^{T} Σ^{+} = {V S}^{+} S^{+} V^{T} D_{M}^{2} = (x - μ)^{T} Σ^{- 1} (x - μ) = (x - μ)^{T} {V S}^{+} S^{+} V^{T} (x - μ) = {(x - μ)^{T} {V S}^{+}} {(x - μ)^{T} {V S}^{+}}^{T}$
- covariance matrix
  - covariance matrix $Σ$ 는 symmetric & positive semidefinite
  - eigenvalue, eigenvector
    - $Σ u_{i} = λ u_{i}$ ( $Σ$ 가 symmetric matrix이기 때문에 eigenvalue는 실수, eigenvector는 orthogonal)
    - $u_{i}^{T} u_{j} = I_{i j}$ $u_{i}^{T} u_{j} = I_{ij}$ (eigenvector가 orthogonal하기 때문에)
      - $I_{i j} = {\begin{matrix} 1, if i = j \\ 0, otherwise \end{matrix}$
  - eigendecomposition
    - $Σ = \sum_{i = 1}^{D} λ_{i} u_{i} u_{j}^{T}$
    - $Σ^{- 1} = \sum_{i = 1}^{D} \frac{1}{λ_{i}} u_{i} u_{j}^{T}$
- Mahalanobis distance represented with eigendecomposition
  - $Δ^{2} = \sum_{i = 1}^{D} \frac{y_{i}^{2}}{λ_{i}}$ $Δ^{2} = \sum_{i = 1}^{D} \frac{y _{i}^{2}}{λ _{i}}$
    - $y_{i} = u_{i}^{T} (x - μ)$
    - $y = (y_{1}, \dots, y_{D})^{T} = U (x - μ)$
    - $U U^{T} = U^{T} U = I$ (orthogonal)
  - Mahalanobis distance가 상수인 경우, $y$ $y$ 에 대한 매개변수식은 ellipse의 매개변수식이 됨
    - 장축 / 단축의 길이는 각각 eigenvalue의 제곱근 * 마할라노비스 거리
- transformation with Jacobian $∣ J ∣$ $∣ J ∣$
  - $J_{i j} = \frac{\partial x_{i}}{\partial y_{j}} = U_{j i} \in U^{T}$
  - $∣ J ∣^{2} = ∣ U^{T} ∣^{2} = ∣ U^{T} ∣ ∣ U ∣ = ∣ U^{T} U ∣ = ∣ I ∣ = 1$ $∣ J ∣^{2} = ∣ U^{T} ∣^{2} = ∣ U^{T} ∣ ∣ U ∣ = ∣ U^{T} U ∣ = ∣ I ∣ = 1$
    - $∵ U \subset orthogonal matrix$
  - $∣ Σ ∣^{1 / 2} = \prod_{j = 1}^{D} λ_{j}^{1 / 2}$ $∣ Σ ∣^{1/2} = \prod_{j = 1}^{D} λ_{j}^{1/2}$
    - determinant = product of eigenvalues
  - $p (y) = p (x) ∣ J ∣ = \prod_{j = 1}^{D} \frac{1}{(2 π λ_{j})^{1 / 2}} \exp {- \frac{y_{j}^{2}}{2 λ_{j}}}$ $p (y) = p (x) ∣ J ∣ = \prod_{j = 1}^{D} \frac{1}{( 2 π λ _{j} ) ^{1/2}} exp {- \frac{y _{j}^{2}}{2 λ _{j}}}$
    - Jacobian transformation ( $x$ 가 $y$ 의 매개변수일 때, $p (y) d y = p (x) d x$ 이므로)
    - D independent univariate Guassian distribvutions의 곱
    - eigenvector을 축으로 하는 D-dimensional ellipsoid
  - $\int p (y) d y = \prod_{j = 1}^{D} \int_{- \infty}^{\infty} \frac{1}{(2 π λ_{j})^{1 / 2}} \exp {- \frac{y_{j}^{2}}{2 λ_{j}}} d y_{j} = 1$
- expectation
  - $E [x] = \frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} x d x = \frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} z^{T} Σ^{- 1} z} (z + μ) d z = \frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} z^{T} Σ^{- 1} z} μ d z = μ$ $E [x] = \frac{1}{( 2 π ) ^{D /2}} \frac{1}{∣ Σ ∣ ^{1/2}} \int exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} x d x = \frac{1}{( 2 π ) ^{D /2}} \frac{1}{∣ Σ ∣ ^{1/2}} \int exp {- \frac{1}{2} z^{T} Σ^{- 1} z} (z + μ) d z = \frac{1}{( 2 π ) ^{D /2}} \frac{1}{∣ Σ ∣ ^{1/2}} \int exp {- \frac{1}{2} z^{T} Σ^{- 1} z} μ d z = μ$
    - $z = x - μ$ 에 대하여 even function(우함수)
    - $\frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} z^{T} Σ^{- 1} z} d z = 1$
- covariance
  - second order moments
    - $E [x x^{T}] = \frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} x x^{T} d x = \frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} z^{T} Σ^{- 1} z} (z + μ) (z + μ)^{T} d z = \frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} z^{T} Σ^{- 1} z} (z z^{T} + μ μ^{T} + z^{T} μ + z μ^{T}) d z = μ μ^{T} + \frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} z^{T} Σ^{- 1} z} z z^{T} d z = μ μ^{T} + \frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \sum_{i = 1}^{D} \sum_{j = 1}^{D} u_{i} u_{j}^{T} \int \exp {- \sum_{k = 1}^{D} \frac{y_{k}^{2}}{2 λ_{k}}} y_{i} y_{j} d y = μ μ^{T} + \sum_{i = 1}^{D} u_{i} u_{i}^{T} λ_{i} = μ μ^{T} + Σ$ $E [x x^{T}] = \frac{1}{( 2 π ) ^{D /2}} \frac{1}{∣ Σ ∣ ^{1/2}} \int exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} x x^{T} d x = \frac{1}{( 2 π ) ^{D /2}} \frac{1}{∣ Σ ∣ ^{1/2}} \int exp {- \frac{1}{2} z^{T} Σ^{- 1} z} (z + μ) (z + μ)^{T} d z = \frac{1}{( 2 π ) ^{D /2}} \frac{1}{∣ Σ ∣ ^{1/2}} \int exp {- \frac{1}{2} z^{T} Σ^{- 1} z} (z z^{T} + μ μ^{T} + z^{T} μ + z μ^{T}) d z = μ μ^{T} + \frac{1}{( 2 π ) ^{D /2}} \frac{1}{∣ Σ ∣ ^{1/2}} \int exp {- \frac{1}{2} z^{T} Σ^{- 1} z} z z^{T} d z = μ μ^{T} + \frac{1}{( 2 π ) ^{D /2}} \frac{1}{∣ Σ ∣ ^{1/2}} \sum_{i = 1}^{D} \sum_{j = 1}^{D} u_{i} u_{j}^{T} \int exp {- \sum_{k = 1}^{D} \frac{y _{k}^{2}}{2 λ _{k}}} y_{i} y_{j} d y = μ μ^{T} + \sum_{i = 1}^{D} u_{i} u_{i}^{T} λ_{i} = μ μ^{T} + Σ$
      - $z = x - μ$ 에 대하여 even function(우함수)
      - $\frac{1}{(2 π)^{D / 2}} \frac{1}{{∣ Σ ∣}^{1 / 2}} \int \exp {- \frac{1}{2} z^{T} Σ^{- 1} z} d z = 1$
  - covariance
    - $cov [x] = E [(x - E [x]) (x - E [x])^{T}] =$
    - $cov [x] = Σ$
- Gaussian distribution의 한계
  - 차원이 클 경우, 행렬 연산 및 역행렬을 구하는 것이 어려움
    - 제한된 형태의 Gaussian distribution 이용
      - $Σ = diag (σ_{i}^{2})$
        
        diagonal matrix형태의 공분산행렬만을 이용 (변수간 상관관계 없음)
      - $Σ = σ^{2} I$
        
        isotropic covariance
      - 연산상 어려움을 해결할 수 있지만, 확률밀도의 형태가 제약됨
  - multimodal 분포를 표현하기 어려움
    - latent variable을 이용할 수 있음
      - Gaussian mixture model
      - Markov random field
      - linear dynamical system
      - 이러한 방법들은 딥러닝과 결합하여 유용하게 사용됨
Conditional Gaussian distributions
- 두 변수의 결합분포가 가우시안이라면, 서로에 대한 조건부분포는 가우시안 분포를 따름
- $p (x_{a} ∣ x_{b})$ 가 가우시안 분포를 따르는 것을 증명
- conditional Gaussian distribution
  - $N (x ∣ μ, Σ)$ $N (x ∣ μ, Σ)$ 을 따르는 벡터 $x$ $x$ 를 subset $x_{a}$ $x_{a}$ 와 $x_{a}$ $x_{a}$ 로 나눔
    - $x_{a}$ 와 $x_{a}$ 의 joint distribution이 Gaussian distribution
    - $x = (\begin{matrix} x_{a} \\ x_{b} \end{matrix})$
  - 평균값 벡터
    - $μ = (\begin{matrix} μ_{a} \\ μ_{b} \end{matrix})$
  - 공분산 행렬
    - $Σ = (\begin{matrix} Σ_{a a} & Σ_{a b} \\ Σ_{b a} & Σ_{b b} \end{matrix})$
    - $Σ_{a a}$ , $Σ_{b b}$ 은 symmetric matrix
    - $Σ_{a b} = Σ_{b a}^{T}$
  - precision matrix
    - $Λ = Σ^{- 1}$
    - $Λ = (\begin{matrix} Λ_{a a} & Λ_{a b} \\ Λ_{b a} & Λ_{b b} \end{matrix})$
    - $Λ_{a a}$ , $Λ_{b b}$ 은 symmetric matrix
    - $Λ_{a b} = Λ_{b a}^{T}$
  - 마할라노비스 거리(결합분포의 지수항)를 분할
    - $- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ) = - \frac{1}{2} (x_{a} - μ_{a})^{T} Λ_{a a} (x_{a} - μ_{a}) - \frac{1}{2} (x_{a} - μ_{a})^{T} Λ_{a b} (x_{b} - μ_{b}) - \frac{1}{2} (x_{b} - μ_{b})^{T} Λ_{b a} (x_{a} - μ_{a}) - \frac{1}{2} (x_{b} - μ_{b})^{T} Λ_{b b} (x_{b} - μ_{b})$
    - 식의 꼴을 보면, $x_{a}$ 에 대하여 quadratic form임을 볼 수 있고, 따라서 $p (x_{a} ∣ x_{b})$ 는 가우시안임을 알 수 있음
    - 위와 같이 판단할 수 있는 이유는 지수상이 quadratic form인 분포는 반드시 가우시안 분포이기 때문, 가우시안 분포의 본질은 지수상이 quadratic form인 분포 그 자체이며, 지수상의 각 항의 계수에 따라 평균과 분산이 결정되는 분포임, 지수상이 아닌 계수부는 단순히 정규화 상수로, 적분값을 1로 만들어주기 위한 상수일 뿐(물론, 정규화가 불가능한 경우와 복소수 공간을 고려하지 않았을 경우의 이야기)
  - completing the square (완전제곱식 만들기)
    - $- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ) = - \frac{1}{2} x^{T} Σ^{- 1} x + x^{T} Σ^{- 1} μ + const$
    - 위와 같이 정리되는 이유는 당연한 이야기이지만 $x$ 와 $μ$ 가 D차원 열벡터이기 때문에, $- \frac{1}{2} (- μ)^{T} Σ^{- 1} x - \frac{1}{2} x^{T} Σ^{- 1} (- μ)$ 가 스칼라로, 동일하게 $\frac{1}{2} x^{T} Σ^{- 1} μ$ 의 값을 가지기 때문
    - exponent term 위의 quadratic form 이 주어졌을 때, 오른쪽과 같이 식을 정리할 경우, 이차항 계수 행렬이 $Σ^{- 1}$ 이며, 일차항 계수 행렬이 $Σ^{- 1} μ$
    - 이런 식으로 가우시안 분포에서 지수상의 이차식이 주어졌을 때, 완전제곱식으로의 변형을 통해 평균과 공분산을 찾을 수 있음 (본문에서는 완전제곱식의 전개를 통하여 계수로부터 찾는 방식으로 표현)
    - 이하에서는 이를 활용하여 조건부 가우시안 분포의 평균과 공분산을 구함
  - completing the square of $p (x_{a} ∣ x_{b})$ $p (x_{a} ∣ x_{b})$
    - $- \frac{1}{2} (x_{a} - μ_{a})^{T} Λ_{a a} (x_{a} - μ_{a}) - \frac{1}{2} (x_{a} - μ_{a})^{T} Λ_{a b} (x_{b} - μ_{b}) - \frac{1}{2} (x_{b} - μ_{b})^{T} Λ_{b a} (x_{a} - μ_{a}) - \frac{1}{2} (x_{b} - μ_{b})^{T} Λ_{b b} (x_{b} - μ_{b})$
    - $x_{a}$ $x_{a}$ 의 이차항 : $- \frac{1}{2} x_{a}^{T} Λ_{a a} x_{a}$ $- \frac{1}{2} x_{a}^{T} Λ_{aa} x_{a}$
      - $Σ_{a ∣ b} = Λ_{a a}^{- 1}$
    - $x_{a}$ $x_{a}$ 의 일차항 : $x_{a}^{T} {Λ_{a a} μ_{a} - Λ_{a b} (x_{b} - μ_{b})}$ $x_{a}^{T} {Λ_{aa} μ_{a} - Λ_{ab} (x_{b} - μ_{b})}$
      - $μ_{a ∣ b} = Σ_{a ∣ b} {Λ_{a a} μ_{a} - Λ_{a b} (x_{b} - μ_{b})} = μ_{a} - Λ_{a a}^{- 1} Λ_{a b} (x_{b} - μ_{b})$
    - 역행렬에서 행렬 블럭에 대한 성질
      - $M = (\begin{matrix} A & B \\ C & D \end{matrix})$
      - $\frac{M}{D} = A - {B D}^{- 1} C$ (슈어 보수행렬: Schur complement)
      - $M^{- 1} = {(\begin{matrix} A & B \\ C & D \end{matrix})}^{- 1} = (\begin{matrix} {\frac{M}{D}}^{- 1} & - {{\frac{M}{D}}^{- 1} B D}^{- 1} \\ - D^{- 1} C {\frac{M}{D}}^{- 1} & D^{- 1} + D^{- 1} {C {\frac{M}{D}}^{- 1} B D}^{- 1} \end{matrix})$
      - 이를 이용하여 아래와 같이 precision matrix를 covariance matrix로 표현할 수 있음(다만, precision matrix를 활용한 표현이 좀 더 간단)
    - ${(\begin{matrix} Σ_{a a} & Σ_{a b} \\ Σ_{b a} & Σ_{b b} \end{matrix})}^{- 1} = (\begin{matrix} Λ_{a a} & Λ_{a b} \\ Λ_{b a} & Λ_{b b} \end{matrix})$
    - $Λ_{a a} = (Σ_{a a} - Σ_{a b} Σ_{b b}^{- 1} Σ_{b a})^{- 1}$
    - $Λ_{a b} = - (Σ_{a a} - Σ_{a b} Σ_{b b}^{- 1} Σ_{b a})^{- 1} Σ_{a b} Σ_{b b}^{- 1}$
    - $μ_{a ∣ b} = μ_{a} + Σ_{a b} Σ_{b b}^{- 1} (x_{b} - μ_{b})$
    - $Σ_{a ∣ b} = Σ_{a a} - Σ_{a b} Σ_{b b}^{- 1} Σ_{b a}$
  - $p (x_{a} ∣ x_{b})$ $p (x_{a} ∣ x_{b})$ 에 대하여, 기대값은 $p (x_{b})$ $p (x_{b})$ 에 대헤 linear, 공분산은 $p (x_{b})$ $p (x_{b})$ 에 대하여 independent
    - linear Gaussian model
Marginal Gaussian distributions
- 두 변수의 결합분포가 가우시안이라면, 각각에 대한 주변분포는 가우시안 분포를 따름
- $p (x_{a}) = \int p (x_{a}, x_{b}) d x_{b}$ 가 가우시안을 따르는 것을 증명(증명방식은 조건부 분포에서의 방식과 대동소이함)
- 마할라노비스 거리(결합분포의 지수항)를 분할
  - $- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ) = - \frac{1}{2} (x_{a} - μ_{a})^{T} Λ_{a a} (x_{a} - μ_{a}) - \frac{1}{2} (x_{a} - μ_{a})^{T} Λ_{a b} (x_{b} - μ_{b}) - \frac{1}{2} (x_{b} - μ_{b})^{T} Λ_{b a} (x_{a} - μ_{a}) - \frac{1}{2} (x_{b} - μ_{b})^{T} Λ_{b b} (x_{b} - μ_{b})$
- $x_{b}$ $x_{b}$ 종속항만을 뽑아냄
  - $- \frac{1}{2} x_{b}^{T} Λ_{b b} x_{b} + x_{b}^{T} {Λ_{b b} μ_{b} - Λ_{b a} (x_{a} - μ_{a})} = - \frac{1}{2} x_{b}^{T} Λ_{b b} x_{b} + x_{b}^{T} m = - \frac{1}{2} (x_{b} - Λ_{b b}^{- 1} m)^{T} Λ_{b b} (x_{b} - Λ_{b b}^{- 1} m) + \frac{1}{2} m^{T} Λ_{b b}^{- 1} m$ $- \frac{1}{2} x_{b}^{T} Λ_{bb} x_{b} + x_{b}^{T} {Λ_{bb} μ_{b} - Λ_{ba} (x_{a} - μ_{a})} = - \frac{1}{2} x_{b}^{T} Λ_{bb} x_{b} + x_{b}^{T} m = - \frac{1}{2} (x_{b} - Λ_{bb}^{- 1} m)^{T} Λ_{bb} (x_{b} - Λ_{bb}^{- 1} m) + \frac{1}{2} m^{T} Λ_{bb}^{- 1} m$
    - $m = Λ_{b b} μ_{b} - Λ_{b a} (x_{a} - μ_{a})$
    - 마지막 완전제곱식으로의 변환시 정방행렬 A가 대칭이고 양의 정부호일 때의 항등식
      $- \frac{1}{2} x^{T} A x + x^{T} b = - \frac{1}{2} (x - A^{- 1} b)^{T} A (x - A^{- 1} b) + \frac{1}{2} b^{T} A^{- 1} b$ $- \frac{1}{2} x^{T} A x + x^{T} b = - \frac{1}{2} (x - A^{- 1} b)^{T} A (x - A^{- 1} b) + \frac{1}{2} b^{T} A^{- 1} b$ 을 이용
      - 단변수 다항식에서 $a x^{2} + b x + c = a (x + \frac{b}{2 a})^{2} - \frac{b^{2} - 4 a c}{4 a}$ 의 일반 항등식에서 $a = 1 / 2, c = 0$ 인 경우에 대응
  - 위 식에서 지수함수를 취한 뒤 $x_{b}$ $x_{b}$ 에 종속적인 항을 골라서 적분
    (계수는 정규화 상수일 뿐이기 때문에, 고려할 필요 없음)
    - $\int \exp {- \frac{1}{2} (x_{b} - Λ_{b b}^{- 1} m)^{T} Λ_{b b} (x_{b} - Λ_{b b}^{- 1} m)} d x_{b}$
    - 이는 정규화되지 않은 가우시안의 적분으로, 정규화 계수의 역수의 값을 가짐
    - 정규화 계수는 평균으로부터 독립적이며, 공분산행렬의 행렬식에 대하여 종속적
    - 따라서, 평균 $Λ_{b b}^{- 1} m$ 가 $x_{a}$ 에 종속적인 항처럼 보이더라도, 결국 평균이기에 위의 적분시 상수 취급할 수 있음
    - 따라서 완전제곱식은 주변분포 $\int p (x_{a}, x_{b}) d x_{b}$ 에서는 상수 취급할 수 있고, 제거가능함
- $x_{b}$ $x_{b}$ 비종속항과 상수로 제거되지 않은 $\frac{1}{2} m^{T} Λ_{b b}^{- 1} m = \frac{1}{2} [Λ_{b b} μ_{b} - Λ_{b a} (x_{a} - μ_{a})]^{T} Λ_{b b}^{- 1} [Λ_{b b} μ_{b} - Λ_{b a} (x_{a} - μ_{a})]$ $\frac{1}{2} m^{T} Λ_{bb}^{- 1} m = \frac{1}{2} [Λ_{bb} μ_{b} - Λ_{ba} (x_{a} - μ_{a})]^{T} Λ_{bb}^{- 1} [Λ_{bb} μ_{b} - Λ_{ba} (x_{a} - μ_{a})]$ 을 합침
  - $\frac{1}{2} [Λ_{b b} μ_{b} - Λ_{b a} (x_{a} - μ_{a})]^{T} Λ_{b b}^{- 1} [Λ_{b b} μ_{b} - Λ_{b a} (x_{a} - μ_{a})] - \frac{1}{2} x_{a}^{T} Λ_{a a} x_{a} + x_{a}^{T} (Λ_{a a} μ_{a} + Λ_{a b} μ_{b}) + const = - \frac{1}{2} x_{a}^{T} (Λ_{a a} - Λ_{a b} Λ_{b b}^{- 1} Λ_{b a}) x_{a} + x_{a}^{T} (Λ_{a a} - Λ_{a b} Λ_{b b}^{- 1} Λ_{b a}) μ_{a} + const$
- $- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ) = - \frac{1}{2} x^{T} Σ^{- 1} x + x^{T} Σ^{- 1} μ + const$ $- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ) = - \frac{1}{2} x^{T} Σ^{- 1} x + x^{T} Σ^{- 1} μ + const$ 를 통해서
  - 공분산: $(Λ_{a a} - Λ_{a b} Λ_{b b}^{- 1} Λ_{b a})^{- 1} = Σ_{a a}$ (슈어 보수행렬)
  - 평균: $μ_{a}$
Partitioned Gaussians: 위의 내용을 정리
- 결합 가우시안 분포 $N (x ∣ μ, Σ)$ $N (x ∣ μ, Σ)$ , $Λ \equiv Σ^{- 1}$ $Λ \equiv Σ^{- 1}$
  - $x = (\begin{matrix} x_{a} \\ x_{b} \end{matrix})$ , $μ = (\begin{matrix} μ_{a} \\ μ_{b} \end{matrix})$ , $Σ = (\begin{matrix} Σ_{a a} & Σ_{a b} \\ Σ_{b a} & Σ_{b b} \end{matrix})$ , $Λ = (\begin{matrix} Λ_{a a} & Λ_{a b} \\ Λ_{b a} & Λ_{b b} \end{matrix})$
- 이 때, 조건부 분포의 경우
  - $p (x_{a} ∣ x_{b}) = N (x_{a} ∣ μ_{a ∣ b}, Λ_{a a}^{- 1})$
  - $μ_{a ∣ b} = μ_{a} - Λ_{a a}^{- 1} Λ_{a b} (x_{b} - μ_{b})$
- 이 때, 주변 분포의 경우
  - $p (x_{a}) = N (x_{a} ∣ μ_{a}, Σ_{a a})$
Bayes' Theorem for Gaussian variables
- 앞에서 확인한 바와 같이, 조건부 분포 $p (y ∣ x)$ 의 평균이 $x$ 에 대해서 선형함수이고, 공분산이 $x$ 에 대하여 독립적일 때, 이는 linear Gaussian model의 예시가 됨
- 이 때, 주변 분포 $p (y)$ 와 조건부 분포 $p (x ∣ y)$ 를 구하는 방법
- 주변 분포와 조건부 분포를 아래와 같이 정의
  - $p (x) = N (x ∣ μ, Λ^{- 1})$
  - $p (y ∣ x) = N (y ∣ A x + b, L^{- 1})$
- $x$ 와 $y$ 의 결합분포의 표현식을 찾기 위해 $z = (\begin{matrix} x \\ y \end{matrix})$ 를 정의
- 결합분포의 로그값
  - $\ln p (z) = \ln p (x) + \ln p (y ∣ x) = - \frac{1}{2} (x - μ)^{T} Λ (x - μ) - \frac{1}{2} (y - A x - b)^{T} L (y - A x - b) + const$
- 위를 전개하여 정밀도(공분산역행렬)와 평균을 찾음
  - 먼저, $z$ $z$ 의 2차항을 찾음
    - $- \frac{1}{2} x^{T} (Λ + A^{T} L A) x - \frac{1}{2} y^{T} L y + \frac{1}{2} y^{T} L A x + \frac{1}{2} x^{T} A^{T} L y = - \frac{1}{2} {(\begin{matrix} x \\ y \end{matrix})}^{T} (\begin{matrix} Λ + A^{T} L A & - A^{T} L \\ - L A & L \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) = - \frac{1}{2} z^{T} R z$
  - 이에 따라 $z$ $z$ 에 대한 가우시안 분포는 아래의 정밀도 행렬을 가짐
    - $R = (\begin{matrix} Λ + A^{T} L A & - A^{T} L \\ - L A & L \end{matrix})$
  - 공분산행렬은 슈어 보수행렬을 통하여 정밀도 행렬의 역행렬로 구할 수 있음
    - $cov [z] = R^{- 1} = (\begin{matrix} Λ^{- 1} & Λ^{- 1} A^{T} \\ A Λ^{- 1} & L^{- 1} + A Λ^{- 1} A^{T} \end{matrix})$
  - 평균은 $z$ $z$ 의 1차항을 통하여 구할 수 있음
    - $x^{T} Λ μ - x^{T} A^{T} L b + y^{T} L b = {(\begin{matrix} x \\ y \end{matrix})}^{T} (\begin{matrix} Λ μ - A^{T} L b \\ L b \end{matrix})$
    - $E [z] = R^{- 1} (\begin{matrix} Λ μ - A^{T} L b \\ L b \end{matrix})$
    - $E [z] = (\begin{matrix} μ \\ A μ + b \end{matrix})$
- 주변 분포 $p (y)$ $p (y)$ 의 표현식
  - $E [y] = A μ + b$ (행렬에서 $μ_{y}$ 에 해당)
  - $cov [y] = L^{- 1} + A Λ^{- 1} A^{T}$ (행렬에서 $Σ_{y y}$ 에 해당)
  - 특별히 $A = I$ $A = I$ 인 경우, 이 결과는 두 가우시안 분포의 convolution에 해당
    - convolution의 평균은 두 가우시안 평균의 합
    - convolution의 공분산은 두 가우시안 공분산의 합
- 조건부 분포 $p (x ∣ y)$ $p (x ∣ y)$ 의 표현식
  - $E [x ∣ y] = (Λ + A^{T} L A)^{- 1} {A^{T} L (y - b + Λ μ}$