Bishop PRML - Ch1. Introduction (5)

Decision Theory

적절한 확률들이 주어진 상태에서 어떻게 하면 최적의 결정을 내릴 수 있는지
Classification
- $p (C_{k} ∣ x) = \frac{p (x ∣ C_{k}) p (C_{k})}{p (x)}$
- 직관적으로 maximize posterior를 통하여 우리가 원하는 해를 얻을 수 있을 것
- 다만, 확률을 토대로 결정하는 것은 다른 문제며, 최종적으로 어떻게 분류할 지는 무엇을 목적으로 할지에 따라 달라짐
Minimizing the misclassification rate
- $x$ $x$ 를 적절한 클래스에 분류하게 위하여, input space를 decision regions $R_{k} 로나눔$ $R_{k} 로나눔$
  - $R_{k}$ 에 속해있는 포인트는 $C_{k}$ 로 할당됨
  - decision regions의 바운더리를 decision boundaries 혹은 decision surfaces라 함
- 예로, k=0,1인 경우에 대한 이진 분류 문제를 관찰
  - $p (mistake) = p (x \in R_{1}, C_{2}) + p (x \in R_{2}, C_{1}) = \int_{R_{1}} p (x, C_{2}) d x + \int_{R_{2}} p (x, C_{1}) d x$
  - minimize $p (mistake)$ $p (mistake)$
    - $p (x, C_{1}) > p (x, C_{2})$ 인 경우 $C_{1}$ 에 분류
    - $p (x, C_{1}) < p (x, C_{2})$ 인 경우 $C_{2}$ 에 분류
    - 결국 $p (C_{k} ∣ x)$ 를 최대로 하는 클래스에 분류하도록 $R_{k}$ 를 선택하여 달성
- K개의 클래스에 대한 분류 문제일 경우, 올바르게 분류된 경우의 확률을 극대화하는 문제로 보는 것이 더 쉬움
  - correct는 mistake의 여집합이기 때문
  - $p (correct) = \sum_{k = 1}^{K} p (x \in R_{k}, C_{k}) = \sum_{k = 1}^{K} \int_{R_{k}} p (x, C_{k}) d x$
  - 결국 $p (C_{k} ∣ x)$ 를 최대로 하는 클래스에 분류하도록 $R_{k}$ 를 선택하여 달성
Minimizing the expected loss
- 일반적으로, 풀고자 하는 문제는 좀 더 복잡함 (Precision을 중요시한다거나, Recall을 중요시하는 등)
- 판정에 가중치를 주어, 학습의 목적을 정할 수 있음
- loss matrix $L$ $L$
  - $L_{k j}$ 는 $C_{k}$ 클래스를 $C_{j}$ 로 분류하였을 때의 loss
- $E [L] = \sum_{k} \sum_{j} \int_{R_{j}} L_{k j} p (x, C_{k}) d x$
- 결국 expected loss를 최소화하는 것은 $\sum_{k} L_{k j} p (C_{k} ∣ x)$ 를 최소화하는 j로 분류하는 것
- 이는 posterior $p (C_{k} ∣ x)$ 를 알면 쉽게 시행 가능
The reject option
- threshold $θ$ 를 두어, posterior $p (C_{k} ∣ x)$ 중 가장 큰 값이 $θ$ 이하일 경우, 판별을 거절
- loss matrix가 주어진 경우, loss에 reject가 발생하였을 때의 loss $λ$ 를 설계하여, 포함해야 함
Inference and decision
- inference stage(posterior modeling)와 decision stage(optimal classification)를 합쳐, input값을 받아 decision을 만들어내는 함수를 이용하는 방식도 있으며, 이 때 이 함수를 discriminant function이라고 함
- decision problem을 푸는 세 가지 방법
  - generative model
    - joint distribution(likelihood * prior) modeling
    - 보통, 학습시 prior로서 학습 데이터의 클래스 분포를 이용함
    - 만약 사전분포가 달라질 경우, 이에 대한 반영이 가능함
    - joint distribution을 알기에 이에 대한 총합인 marginal probability도 알 수 있고, 따라서 인공 데이터셋을 만들어낼 수도 있음
      - $p (x) = \sum_{k} p (x ∣ C_{k}) p (C_{k})$
      - 특히, 발생 확률이 낮은 데이터 포인트를 미리 발견할 수 있으며, 이러한 검출 방식을 outlier detection 혹은 novelty detection이라 함
  - discriminative model
    - posterior modeling
    - generative model에 비하여 간단하고 효율적
  - discriminant function
    - posterior을 알지 못하여 얻는 불이익들이 있음
- posterior을 알 때
  - loss matrix가 변할 때, 새로 학습하지 않고 loss matrix만 교체해주면 됨
  - maximum posterior값을 통하여 reject option을 적용 가능
  - prior을 자유롭게 설정하여 학습할 수 있으며, 적용시 prior가 달라져도 반영 가능
  - 분리된 모델들을 결합 가능
    - conditional independence 가정을 통하여 naive Bayes model 적용
      - $p (x_{A}, x_{B} ∣ C_{k}) = p (x_{A} ∣ C_{k}) p (x_{B} ∣ C_{k})$
      - 분포가 $C_{k}$ 에 포함되었다는 조건 하에 독립, 이를 가정하여 posterior 산출 가능
      - $p (C_{k} ∣ x_{A}, x_{B}) \propto p (x_{A}, x_{B} ∣ C_{k}) p (C_{k}) \propto p (x_{A} ∣ C_{k}) p (x_{B} ∣ C_{k}) p (C_{k}) \propto \frac{p (C_{k} ∣ x_{A}) p (C_{k} ∣ x_{B})}{p (C_{k})}$
      - prior $p (C_{k})$ 은 학습 데이터의 클래스 분포로 근사
      - posterior을 normalize하는 과정은 필요함
    - conditional independence 가정 없이도 데이터들을 결합시키는 방법을 뒤에서 살펴봄
Loss functions for regression
- expected loss
  - $E [L] = \int \int L (t, y (x)) p (x, t) d x d t$
- when applied squared loss
  - $E [L] = \int \int {y (x) - t}^{2} p (x, t) d x d t$
- to minimize $E [L]$ $E [L]$ , find extrema
  - $\frac{δ E [L]}{δ y (x)} = 2 \int {y (x) - t} p (x, t) d t = 0$
  - $y (x) = \frac{\int t p (x, t) d t}{p (x)} = \int t p (t ∣ x) d t = E_{t} [t ∣ x]$
  - multiple target vector $t$ $t$ 가정시 optimal solution
    - $y (x) = E_{t} [t ∣ x]$ (conditional expectation)
- 분해를 통한 또 다른 유도
  - ${y (x - t)}^{2} = {y (x) - E [t ∣ x] + E [t ∣ x] - t}^{2} = {y (x) - E [t ∣ x]}^{2} + 2 {y (x) - E [t ∣ x]} {E [t ∣ x] - t} + {E [t ∣ x] - t}^{2}$
  - $E [L] = \int {y (x) - E [t ∣ x}^{2} p (x) d x + \int var [t ∣ x] p (x) d x$
  - $y (x) = E_{t} [t ∣ x]$ 일 때 식 최소화
  - $\int var [t ∣ x] p (x) d x$ 는 노이즈에 해당
- squared loss가 좋지 못한 결과를 야기하는 경우
  - posterior가 multimodal인 경우
    - 두 mode중 좀 더 좋은 mode가 아니라, 두 mode 사이의 어딘가로 학습할 확률이 큼
  - Minkowski loss
    - $E [L] = \int \int ∣ y (x) - t ∣^{q} p (x, t) d x d t$
    - squared loss의 일반화
    - $E [L]$ $E [L]$ 의 최소값
      - $q = 2$ : conditional mean
      - $q = 1$ : conditional median
      - $q \to 0$ : conditional mode