-
적절한 확률들이 주어진 상태에서 어떻게 하면 최적의 결정을 내릴 수 있는지
-
Classification
- p(Ck∣x)=p(x)p(x∣Ck)p(Ck)
- 직관적으로 maximize posterior를 통하여 우리가 원하는 해를 얻을 수 있을 것
- 다만, 확률을 토대로 결정하는 것은 다른 문제며, 최종적으로 어떻게 분류할 지는 무엇을 목적으로 할지에 따라 달라짐
-
Minimizing the misclassification rate
- x를 적절한 클래스에 분류하게 위하여, input space를 decision regions Rk로나눔
- Rk에 속해있는 포인트는 Ck로 할당됨
- decision regions의 바운더리를 decision boundaries 혹은 decision surfaces라 함
- 예로, k=0,1인 경우에 대한 이진 분류 문제를 관찰
- p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx
- minimize p(mistake)
- p(x,C1)>p(x,C2)인 경우 C1에 분류
- p(x,C1)<p(x,C2)인 경우 C2에 분류
- 결국 p(Ck∣x)를 최대로 하는 클래스에 분류하도록 Rk를 선택하여 달성
- K개의 클래스에 대한 분류 문제일 경우, 올바르게 분류된 경우의 확률을 극대화하는 문제로 보는 것이 더 쉬움
- correct는 mistake의 여집합이기 때문
- p(correct)=∑k=1Kp(x∈Rk,Ck)=∑k=1K∫Rkp(x,Ck)dx
- 결국 p(Ck∣x)를 최대로 하는 클래스에 분류하도록 Rk를 선택하여 달성
-
Minimizing the expected loss
- 일반적으로, 풀고자 하는 문제는 좀 더 복잡함 (Precision을 중요시한다거나, Recall을 중요시하는 등)
- 판정에 가중치를 주어, 학습의 목적을 정할 수 있음
- loss matrix L
- Lkj는 Ck클래스를 Cj로 분류하였을 때의 loss
- E[L]=∑k∑j∫RjLkjp(x,Ck)dx
- 결국 expected loss를 최소화하는 것은 ∑kLkjp(Ck∣x)를 최소화하는 j로 분류하는 것
- 이는 posterior p(Ck∣x)를 알면 쉽게 시행 가능
-
The reject option
- threshold θ를 두어, posterior p(Ck∣x)중 가장 큰 값이 θ 이하일 경우, 판별을 거절
- loss matrix가 주어진 경우, loss에 reject가 발생하였을 때의 loss λ를 설계하여, 포함해야 함
-
Inference and decision
- inference stage(posterior modeling)와 decision stage(optimal classification)를 합쳐, input값을 받아 decision을 만들어내는 함수를 이용하는 방식도 있으며, 이 때 이 함수를 discriminant function이라고 함
- decision problem을 푸는 세 가지 방법
- generative model
- joint distribution(likelihood * prior) modeling
- 보통, 학습시 prior로서 학습 데이터의 클래스 분포를 이용함
- 만약 사전분포가 달라질 경우, 이에 대한 반영이 가능함
- joint distribution을 알기에 이에 대한 총합인 marginal probability도 알 수 있고, 따라서 인공 데이터셋을 만들어낼 수도 있음
- p(x)=∑kp(x∣Ck)p(Ck)
- 특히, 발생 확률이 낮은 데이터 포인트를 미리 발견할 수 있으며, 이러한 검출 방식을 outlier detection 혹은 novelty detection이라 함
- discriminative model
- posterior modeling
- generative model에 비하여 간단하고 효율적
- discriminant function
- posterior을 알지 못하여 얻는 불이익들이 있음
- posterior을 알 때
- loss matrix가 변할 때, 새로 학습하지 않고 loss matrix만 교체해주면 됨
- maximum posterior값을 통하여 reject option을 적용 가능
- prior을 자유롭게 설정하여 학습할 수 있으며, 적용시 prior가 달라져도 반영 가능
- 분리된 모델들을 결합 가능
- conditional independence 가정을 통하여 naive Bayes model 적용
- p(xA,xB∣Ck)=p(xA∣Ck)p(xB∣Ck)
- 분포가 Ck에 포함되었다는 조건 하에 독립, 이를 가정하여 posterior 산출 가능
- p(Ck∣xA,xB)∝p(xA,xB∣Ck)p(Ck)∝p(xA∣Ck)p(xB∣Ck)p(Ck)∝p(Ck)p(Ck∣xA)p(Ck∣xB)
- prior p(Ck)은 학습 데이터의 클래스 분포로 근사
- posterior을 normalize하는 과정은 필요함
- conditional independence 가정 없이도 데이터들을 결합시키는 방법을 뒤에서 살펴봄
-
Loss functions for regression
- expected loss
- E[L]=∫∫L(t,y(x))p(x,t)dxdt
- when applied squared loss
- E[L]=∫∫{y(x)−t}2p(x,t)dxdt
- to minimize E[L], find extrema
- δy(x)δE[L]=2∫{y(x)−t}p(x,t)dt=0
- y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x]
- multiple target vector t 가정시 optimal solution
- y(x)=Et[t∣x] (conditional expectation)
- 분해를 통한 또 다른 유도
- {y(x−t)}2={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2
- E[L]=∫{y(x)−E[t∣x}2p(x)dx+∫var[t∣x]p(x)dx
- y(x)=Et[t∣x] 일 때 식 최소화
- ∫var[t∣x]p(x)dx는 노이즈에 해당
- squared loss가 좋지 못한 결과를 야기하는 경우
- posterior가 multimodal인 경우
- 두 mode중 좀 더 좋은 mode가 아니라, 두 mode 사이의 어딘가로 학습할 확률이 큼
- Minkowski loss
- E[L]=∫∫∣y(x)−t∣qp(x,t)dxdt
- squared loss의 일반화
- E[L]의 최소값
- q=2 : conditional mean
- q=1 : conditional median
- q→0 : conditional mode