-
Bernoulli distribution
- Bern(x∣μ)=μx(1−μ)1−x
- p(x=1∣μ)=1−p(x=0∣μ)=μ 일 때의 분포
- mean
- E[x]=μ
- variance
- var[x]=μ(1−μ)
- likelihood
- p(D∣μ)=∏n=1Np(xn∣μ)=∏n=1Nμxn(1−μ)1−xn
- log likelihood
- lnp(D∣μ)=∑n=1Nlnp(xn∣μ)=∑n=1N{xnlnμ+(1−xn)ln(1−μ)}
- MLE
- μML=N1∑n=1Mxn
- log likelihood을 미분하여, extrema를 구함으로서 구할 수 있음
- sample mean과 동일함에 유의
-
binomial distribution
- Bin(m∣N,μ)=(mN)μm(1−μ)N−m
- N회의 Bernoulli 독십시행결과 m번의 성공을 할 확률
- (mN)=(N−m)!m!N!
- mean
- E[m]=∑m=0NmBin(m∣N,μ)=Nμ
- variance
- var[m]=∑m=0N(m−E[m])2Bin(m∣N,μ)=Nμ(1−μ)
-
beta function / gamma function
-
Euler integral
- Euler integral of first kind (beta function)
- B(x,y)=∫01tx−1(1−t)y−1dt=Γ(x+y)Γ(x)Γ(y)
- Euler integral of second kind (gamma function)
- Γ(x)=∫0∞ettx−1dt
-
gamma function
- factorial의 실수에 대한 일반화
- 증명
- Γ(x+1)=∫0∞ettxdt=[−txe−t]t=0t=∞−(∫0∞−xtx−1e−tdt)=t→∞lim(−txe−t)−0+(∫0∞xtx−1e−tdt)=x∫0∞tx−1e−tdt=xΓ(x)(L'Hospital's Rule)
- Γ(x+1)=xΓ(x)
- Γ(1)=1,0!=1
- ∴Γ(n+1)=n!,Γ(n)=(n−1)!
-
beta function
- B(x,y)=∫01tx−1(1−t)y−1dt=Γ(x+y)Γ(x)Γ(y)
- B(n,m)=(n+m−2)!(n−1)!(m−1)!
-
beta distribution
- Beta(μ∣a,b)=Γ(a)Γ(b)Γ(a+b)μa−1(1−μ)b−1
- Γ(x)=∫0∞ux−1e−udu
- Binomial distribution의 conjugate prior
- f(x;α,β)=∫01uα−1(1−u)β−1duxα−1(1−x)β−1=B(α,β)xα−1(1−x)β−1=Γ(α)Γ(β)Γ(α+β)xα−1(1−x)β−1
- 잘 보면 binomial distribution식의 실수판임, 이를 염두에 두고 보면 좀 더 연관성이 보일 것
- 이를 고려할 때, 두 모수를 각각 시행횟수로 볼 수 있음
- 본문에서 a와 b를 유효 관찰수로 해석할 수 있다는 소리는 바로 이런 의미
- mean
- E[μ]=a+ba
- variance
- var[μ]=(a+b)2(a+b+1)ab
-
posterior of binomial likelihood & beta prior
- p(μ∣m,l,a,b)∝μm+a−1(1−μ)l+b−1
- p(μ∣m,l,a,b)=Γ(m+a)Γ(l+b)Γ(m+a+l+b)μm+a−1(1−μ)l+b−1
- 이를 최대화하는 방식이 바로 MAP
- posterior값을 다음 MAP에서의 prior로 이용하는 방식을 통하여 커버 샘플수를 점점 키워가며 학습하는 순차적 접근법을 쓸 수 있음 (small batch로 나누어 학습할 수 있음)
-
prediction with likelihood & prior
- p(x=1∣D)=∫01p(x=1∣μ)p(μ∣D)du=∫01μp(μ∣D)du=E[μ∣D]
- p(x=1∣D)=m+a+l+bm+a
- m,l→∞일 경우, p(x=1∣D)=m+lm이 되어, MLE의 결과와 동일해짐
- beta distribution의로 표현된 prior은 관측값의 수가 증가할 수록(a, b의 값이 클 수록) Beta(μ∣a,b)의 그래프가 뾰족해짐
- 데이터가 많을 수록 평균적으로 posterior의 불확실성 감소 (posterior가 나타내는 분포 자체는 stochastic하나, 분포의 모수가 deterministic해짐)
- \mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \mathbb{E}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]
- \mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \int{p(\boldsymbol{\theta})\boldsymbol{\theta}\,d\boldsymbol{\theta}}
- \mathbb{E}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]] = \int\left\{\int{\boldsymbol{\theta}p(\boldsymbol{\theta}{\mid}\mathcal{D})\,d\boldsymbol{\theta}}\right\}p(\mathcal{D})\,d\mathcal{D}
- posterior평균의 데이터 분포에 대한 기대값은 prior평균과 동일
- \operatorname{var}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \mathbb{E}_\mathcal{D}[\operatorname{var}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]+\operatorname{var}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]
- posterior분산의 데이터 분포에 대한 기대값은 prior분산보다 작음
- 데이터 분포에 대한 기대값임에 유의, 데이터 분포 내의 subset에 대해서는 다를 수 있음