-
Gaussian distribution
- 가우시안 분포의 핵심은, exponent term이 quadratic form인 분포라는 것
(정규화가 불가능한 경우와, 복소수 공간을 고려하지 않은 경우라면 위의 내용만 성립할 경우 항상 가우시안 분포임)
- univariate Gaussian distribution
- N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}
- multivariate Gaussian distribution
- N(x∣μ,Σ)=(2π)D/21∣Σ∣1/21exp{−21(x−μ)TΣ−1(x−μ)}
- CLT (central limit theorem)
- 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워짐
- 때문에, 다양한 경우에 대하여 가장 빈번하게 쓰이는 분포
- Mahalanobis distance
- Δ2=(x−μ)TΣ−1(x−μ)
- Gaussian distribution의 exponential항
- Euclidian distance를 분산(공분산)으로 나눈 거리
- normalized된 Euclidian distance라고 생각하면 좋음
- 이론적으로 중요한 내용은 아니지만, Mahalanobis distance를 구할 때 full rank가 아닌 경우 inverse covariance matrix를 구하기 어려움
때문에, 실용적으로는 Moore-Penrose pseudoinverse를 이용함
pseudoinverse는 SVD(singular value decomposition을 통하여 아래와 같이 구할 수 있음)
- DM2=(x−μ)TΣ−1(x−μ)XD=USVTΣ=XDTXD=VSUTUSVT=VSSVTΣ+=VS+S+VTDM2=(x−μ)TΣ−1(x−μ)=(x−μ)TVS+S+VT(x−μ)={(x−μ)TVS+}{(x−μ)TVS+}T
- covariance matrix
- covariance matrix Σ는 symmetric & positive semidefinite
- eigenvalue, eigenvector
- Σui=λui (Σ가 symmetric matrix이기 때문에 eigenvalue는 실수, eigenvector는 orthogonal)
- uiTuj=Iij (eigenvector가 orthogonal하기 때문에)
- Iij={1,if i=j0,otherwise
- eigendecomposition
- Σ=∑i=1DλiuiujT
- Σ−1=∑i=1Dλi1uiujT
- Mahalanobis distance represented with eigendecomposition
- Δ2=∑i=1Dλiyi2
- yi=uiT(x−μ)
- y=(y1,⋯,yD)T=U(x−μ)
- UUT=UTU=I (orthogonal)
- Mahalanobis distance가 상수인 경우, y에 대한 매개변수식은 ellipse의 매개변수식이 됨
- 장축 / 단축의 길이는 각각 eigenvalue의 제곱근 * 마할라노비스 거리
- transformation with Jacobian ∣J∣
- Jij=∂yj∂xi=Uji∈UT
- ∣J∣2=∣UT∣2=∣UT∣∣U∣=∣UTU∣=∣I∣=1
- ∵U⊂orthogonal matrix
- ∣Σ∣1/2=∏j=1Dλj1/2
- determinant = product of eigenvalues
- p(y)=p(x)∣J∣=∏j=1D(2πλj)1/21exp{−2λjyj2}
- Jacobian transformation (x가 y의 매개변수일 때, p(y)dy=p(x)dx 이므로)
- D independent univariate Guassian distribvutions의 곱
- eigenvector을 축으로 하는 D-dimensional ellipsoid
- ∫p(y)dy=∏j=1D∫−∞∞(2πλj)1/21exp{−2λjyj2}dyj=1
- expectation
- E[x]=(2π)D/21∣Σ∣1/21∫exp{−21(x−μ)TΣ−1(x−μ)}xdx=(2π)D/21∣Σ∣1/21∫exp{−21zTΣ−1z}(z+μ)dz=(2π)D/21∣Σ∣1/21∫exp{−21zTΣ−1z}μdz=μ
- z=x−μ에 대하여 even function(우함수)
- (2π)D/21∣Σ∣1/21∫exp{−21zTΣ−1z}dz=1
- covariance
- second order moments
- E[xxT]=(2π)D/21∣Σ∣1/21∫exp{−21(x−μ)TΣ−1(x−μ)}xxTdx=(2π)D/21∣Σ∣1/21∫exp{−21zTΣ−1z}(z+μ)(z+μ)Tdz=(2π)D/21∣Σ∣1/21∫exp{−21zTΣ−1z}(zzT+μμT+zTμ+zμT)dz=μμT+(2π)D/21∣Σ∣1/21∫exp{−21zTΣ−1z}zzTdz=μμT+(2π)D/21∣Σ∣1/21∑i=1D∑j=1DuiujT∫exp{−∑k=1D2λkyk2}yiyjdy=μμT+∑i=1DuiuiTλi=μμT+Σ
- z=x−μ에 대하여 even function(우함수)
- (2π)D/21∣Σ∣1/21∫exp{−21zTΣ−1z}dz=1
- covariance
- cov[x]=E[(x−E[x])(x−E[x])T]=
- cov[x]=Σ
- Gaussian distribution의 한계
- 차원이 클 경우, 행렬 연산 및 역행렬을 구하는 것이 어려움
- 제한된 형태의 Gaussian distribution 이용
- Σ=diag(σi2)
- diagonal matrix형태의 공분산행렬만을 이용 (변수간 상관관계 없음)
- Σ=σ2I
- 연산상 어려움을 해결할 수 있지만, 확률밀도의 형태가 제약됨
- multimodal 분포를 표현하기 어려움
- latent variable을 이용할 수 있음
- Gaussian mixture model
- Markov random field
- linear dynamical system
- 이러한 방법들은 딥러닝과 결합하여 유용하게 사용됨
-
Conditional Gaussian distributions
- 두 변수의 결합분포가 가우시안이라면, 서로에 대한 조건부분포는 가우시안 분포를 따름
- p(xa∣xb)가 가우시안 분포를 따르는 것을 증명
- conditional Gaussian distribution
- N(x∣μ,Σ) 을 따르는 벡터 x를 subset xa와 xa로 나눔
- xa와 xa의 joint distribution이 Gaussian distribution
- x=(xaxb)
- 평균값 벡터
- μ=(μaμb)
- 공분산 행렬
- Σ=(ΣaaΣbaΣabΣbb)
- Σaa, Σbb은 symmetric matrix
- Σab=ΣbaT
- precision matrix
- Λ=Σ−1
- Λ=(ΛaaΛbaΛabΛbb)
- Λaa, Λbb은 symmetric matrix
- Λab=ΛbaT
- 마할라노비스 거리(결합분포의 지수항)를 분할
- −21(x−μ)TΣ−1(x−μ)=−21(xa−μa)TΛaa(xa−μa)−21(xa−μa)TΛab(xb−μb)−21(xb−μb)TΛba(xa−μa)−21(xb−μb)TΛbb(xb−μb)
- 식의 꼴을 보면, xa에 대하여 quadratic form임을 볼 수 있고, 따라서 p(xa∣xb)는 가우시안임을 알 수 있음
- 위와 같이 판단할 수 있는 이유는 지수상이 quadratic form인 분포는 반드시 가우시안 분포이기 때문, 가우시안 분포의 본질은 지수상이 quadratic form인 분포 그 자체이며, 지수상의 각 항의 계수에 따라 평균과 분산이 결정되는 분포임, 지수상이 아닌 계수부는 단순히 정규화 상수로, 적분값을 1로 만들어주기 위한 상수일 뿐(물론, 정규화가 불가능한 경우와 복소수 공간을 고려하지 않았을 경우의 이야기)
- completing the square (완전제곱식 만들기)
- −21(x−μ)TΣ−1(x−μ)=−21xTΣ−1x+xTΣ−1μ+const
- 위와 같이 정리되는 이유는 당연한 이야기이지만 x와 μ가 D차원 열벡터이기 때문에, −21(−μ)TΣ−1x−21xTΣ−1(−μ)가 스칼라로, 동일하게 21xTΣ−1μ의 값을 가지기 때문
- exponent term 위의 quadratic form 이 주어졌을 때, 오른쪽과 같이 식을 정리할 경우, 이차항 계수 행렬이 Σ−1이며, 일차항 계수 행렬이 Σ−1μ
- 이런 식으로 가우시안 분포에서 지수상의 이차식이 주어졌을 때, 완전제곱식으로의 변형을 통해 평균과 공분산을 찾을 수 있음 (본문에서는 완전제곱식의 전개를 통하여 계수로부터 찾는 방식으로 표현)
- 이하에서는 이를 활용하여 조건부 가우시안 분포의 평균과 공분산을 구함
- completing the square of p(xa∣xb)
- −21(xa−μa)TΛaa(xa−μa)−21(xa−μa)TΛab(xb−μb)−21(xb−μb)TΛba(xa−μa)−21(xb−μb)TΛbb(xb−μb)
- xa의 이차항 : −21xaTΛaaxa
- Σa∣b=Λaa−1
- xa의 일차항 : xaT{Λaaμa−Λab(xb−μb)}
- μa∣b=Σa∣b{Λaaμa−Λab(xb−μb)}=μa−Λaa−1Λab(xb−μb)
- 역행렬에서 행렬 블럭에 대한 성질
- M=(ACBD)
- DM=A−BD−1C (슈어 보수행렬: Schur complement)
- M−1=(ACBD)−1=(DM−1−D−1CDM−1−DM−1BD−1D−1+D−1CDM−1BD−1)
- 이를 이용하여 아래와 같이 precision matrix를 covariance matrix로 표현할 수 있음(다만, precision matrix를 활용한 표현이 좀 더 간단)
- (ΣaaΣbaΣabΣbb)−1=(ΛaaΛbaΛabΛbb)
- Λaa=(Σaa−ΣabΣbb−1Σba)−1
- Λab=−(Σaa−ΣabΣbb−1Σba)−1ΣabΣbb−1
- μa∣b=μa+ΣabΣbb−1(xb−μb)
- Σa∣b=Σaa−ΣabΣbb−1Σba
- p(xa∣xb)에 대하여, 기대값은 p(xb)에 대헤 linear, 공분산은 p(xb)에 대하여 independent
-
Marginal Gaussian distributions
- 두 변수의 결합분포가 가우시안이라면, 각각에 대한 주변분포는 가우시안 분포를 따름
- p(xa)=∫p(xa,xb)dxb가 가우시안을 따르는 것을 증명(증명방식은 조건부 분포에서의 방식과 대동소이함)
- 마할라노비스 거리(결합분포의 지수항)를 분할
- −21(x−μ)TΣ−1(x−μ)=−21(xa−μa)TΛaa(xa−μa)−21(xa−μa)TΛab(xb−μb)−21(xb−μb)TΛba(xa−μa)−21(xb−μb)TΛbb(xb−μb)
- xb종속항만을 뽑아냄
- −21xbTΛbbxb+xbT{Λbbμb−Λba(xa−μa)}=−21xbTΛbbxb+xbTm=−21(xb−Λbb−1m)TΛbb(xb−Λbb−1m)+21mTΛbb−1m
- m=Λbbμb−Λba(xa−μa)
- 마지막 완전제곱식으로의 변환시 정방행렬 A가 대칭이고 양의 정부호일 때의 항등식
−21xTAx+xTb=−21(x−A−1b)TA(x−A−1b)+21bTA−1b을 이용
- 단변수 다항식에서 ax2+bx+c=a(x+2ab)2−4ab2−4ac의 일반 항등식에서 a=1/2,c=0인 경우에 대응
- 위 식에서 지수함수를 취한 뒤 xb에 종속적인 항을 골라서 적분
(계수는 정규화 상수일 뿐이기 때문에, 고려할 필요 없음)
- ∫exp{−21(xb−Λbb−1m)TΛbb(xb−Λbb−1m)}dxb
- 이는 정규화되지 않은 가우시안의 적분으로, 정규화 계수의 역수의 값을 가짐
- 정규화 계수는 평균으로부터 독립적이며, 공분산행렬의 행렬식에 대하여 종속적
- 따라서, 평균 Λbb−1m가 xa에 종속적인 항처럼 보이더라도, 결국 평균이기에 위의 적분시 상수 취급할 수 있음
- 따라서 완전제곱식은 주변분포 ∫p(xa,xb)dxb에서는 상수 취급할 수 있고, 제거가능함
- xb비종속항과 상수로 제거되지 않은 21mTΛbb−1m=21[Λbbμb−Λba(xa−μa)]TΛbb−1[Λbbμb−Λba(xa−μa)]을 합침
- 21[Λbbμb−Λba(xa−μa)]TΛbb−1[Λbbμb−Λba(xa−μa)]−21xaTΛaaxa+xaT(Λaaμa+Λabμb)+const=−21xaT(Λaa−ΛabΛbb−1Λba)xa+xaT(Λaa−ΛabΛbb−1Λba)μa+const
- −21(x−μ)TΣ−1(x−μ)=−21xTΣ−1x+xTΣ−1μ+const를 통해서
- 공분산: (Λaa−ΛabΛbb−1Λba)−1=Σaa (슈어 보수행렬)
- 평균: μa
-
Partitioned Gaussians: 위의 내용을 정리
- 결합 가우시안 분포 N(x∣μ,Σ), Λ≡Σ−1
- x=(xaxb), μ=(μaμb), Σ=(ΣaaΣbaΣabΣbb), Λ=(ΛaaΛbaΛabΛbb)
- 이 때, 조건부 분포의 경우
- p(xa∣xb)=N(xa∣μa∣b,Λaa−1)
- μa∣b=μa−Λaa−1Λab(xb−μb)
- 이 때, 주변 분포의 경우
- p(xa)=N(xa∣μa,Σaa)
-
Bayes' Theorem for Gaussian variables
- 앞에서 확인한 바와 같이, 조건부 분포 p(y∣x)의 평균이 x에 대해서 선형함수이고, 공분산이 x에 대하여 독립적일 때, 이는 linear Gaussian model의 예시가 됨
- 이 때, 주변 분포 p(y)와 조건부 분포 p(x∣y)를 구하는 방법
- 주변 분포와 조건부 분포를 아래와 같이 정의
- p(x)=N(x∣μ,Λ−1)
- p(y∣x)=N(y∣Ax+b,L−1)
- x와 y의 결합분포의 표현식을 찾기 위해 z=(xy)를 정의
- 결합분포의 로그값
- lnp(z)=lnp(x)+lnp(y∣x)=−21(x−μ)TΛ(x−μ)−21(y−Ax−b)TL(y−Ax−b)+const
- 위를 전개하여 정밀도(공분산역행렬)와 평균을 찾음
- 먼저, z의 2차항을 찾음
- −21xT(Λ+ATLA)x−21yTLy+21yTLAx+21xTATLy=−21(xy)T(Λ+ATLA−LA−ATLL)(xy)=−21zTRz
- 이에 따라 z에 대한 가우시안 분포는 아래의 정밀도 행렬을 가짐
- R=(Λ+ATLA−LA−ATLL)
- 공분산행렬은 슈어 보수행렬을 통하여 정밀도 행렬의 역행렬로 구할 수 있음
- cov[z]=R−1=(Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT)
- 평균은 z의 1차항을 통하여 구할 수 있음
- xTΛμ−xTATLb+yTLb=(xy)T(Λμ−ATLbLb)
- E[z]=R−1(Λμ−ATLbLb)
- E[z]=(μAμ+b)
- 주변 분포 p(y)의 표현식
- E[y]=Aμ+b (행렬에서 μy에 해당)
- cov[y]=L−1+AΛ−1AT (행렬에서 Σyy에 해당)
- 특별히 A=I인 경우, 이 결과는 두 가우시안 분포의 convolution에 해당
- convolution의 평균은 두 가우시안 평균의 합
- convolution의 공분산은 두 가우시안 공분산의 합
- 조건부 분포 p(x∣y)의 표현식
- E[x∣y]=(Λ+ATLA)−1{ATL(y−b+Λμ}