7. Sparse Kernel Machines

이 장에선 해가 희소하여 새 입력에 대한 예측이 학습 데이터 중 일부에 대한 커널 함수만으로도 구해질 수 있는 커널 기반 알고리즘을 알아본다. 먼저 보조 벡터 기계를 알아보는데, 이의 특성은 모델 매개변수 판정이 볼록 최적화 문제이므로 임의의 국소적 해가 전역 해가 된다는 사실이다. 다만, 사후확률을 제공하지 않는다. 연관 벡터 기계는 확률적 출력을 제공한다.

7.1. Maximum Margin Classifiers

선형 분리 가능한 데이터를 이진 분리하는 y(\mathbf{x}) = \mathbf{w}^{T} \mathbf{\phi}(\mathbf{x}) + b 형태의 모델을 생각해 보자. 이 때 결정 경계와 표본간의 차이 거리를 최대화시키는 해는 \mathrm{argmax}_{\mathbf{w}, b} [\frac{1}{\lVert \mathbf{w} \rVert} \min_{n}(t_{n}(\mathbf{w}^{T} \mathbf{\phi}(\mathbf{x}_{n}) + b))]를 풀어서 얻을 수 있다. 이의 해는 라그랑주 승수법으로 구하는데, \mathbf{w} = \sum_{n=1}^{N} a_{n} t_{n} \mathbf{\phi}(\mathbf{x}_{n})0 = \sum_{n=1}^{N} a_{n}t_{n}의 두 조건에 대한 해를 구하면 된다. 이것을 보조 벡터 기계라 한다.

7.1.1. Overlapping class distributions

선형 분리 가능하지 않은 경우에 보조 벡터 기계를 적용하려면 느슨한 변수 \xi_{n} \geq 0을 도입해 t_{n} y(\mathbf{x}_{n}) \geq 1 - \xi_{n}을 푼다. 이의 해도 역시 라그랑주 승수법으로 구하는데, \mathbf{w} = \sum_{n=1}^{N} a_{n} t_{n} \mathbf{\phi}(\mathbf{x}_{n})0 = \sum_{n=1}^{N} a_{n}t_{n}, a_{n} = C - \mu_{n}의 세 조건에 대한 해를 구하면 된다. 이것조차 불가능한 경우에는 커널을 적용해 변환을 하여 선형 분리가 가능하게 하면 된다.

7.1.2. Relation to logistic regression

보조 벡터 기계는 로지스틱 회귀와 유사점을 가지나, 손실 함수가 경첩 함수라는 점이 다르며 희소한 해를 유도한다는 점이 다르다.

7.1.3. Multiclass SVMs

SVM은 본질적으로 2클래스 분류기이다. K > 2 클래스의 경우에는 일대다 분류기 K – 1개를 쓸 수도 있고 일대일 분류기 K(K-1)/2개를 쓸 수도 있다.

7.1.4. SVMs for regression

보조 벡터 기계를 회귀 문제에 적용하기 위해서는 손실 함수를 E_{\epsilon}(y(\mathbf{x}) - t) = \max(\lvert y(\mathbf{x}) - t \rvert - \epsilon, 0) 으로 바꾼다. 이에 대해서 오차 함수를 C \sum_{n=1}^{N} E_{\epsilon} (y(\mathbf{x}_{n}) - t_{n}) + \frac{1}{2} \lVert \mathbf{w} \rVert^{2}을 최소화시키면 된다.

7.1.5. Computational learning theory

보조 벡터 기계는 계산적 학습론의 토대가 되어 왔는데, 이의 목적은 좋은 일반화를 위해서는 얼마나 데이터 셋이 커야 하는지를 판정하는 토대가 된다.

7.2. Relevance Vector Machines

연관 벡터 기계는 확률적 출력을 제공하지 않는다는 보조 벡터 기계의 한계점을 해결한 개선책이다.

7.2.1. RVM for regression

회귀에 대한 연관 벡터 기계는 다음으로 주어진다:

p(t | \mathbf{x}, \mathbf{X}, \mathbf{t}, \mathbf{\alpha}^{\ast}, \beta^{\ast}) = \mathcal{N}(t | \mathbf{m}^{T} \mathbf{\phi}(\mathbf{x}), \sigma^{2}(\mathbf{x})), \mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{T} \mathbf{t}, \sigma^{2}(\mathbf{x}) = (\beta^{\ast})^{-1} + \mathbf{\phi}(\mathbf{x})^{T} \mathbf{\Sigma} \mathbf{\phi}(\mathbf{x})

이는 확률적 출력을 제공한다는 점에서 보조 벡터 기계보다 낫지만, 비볼록 최적화이고 학습 시간이 더 느리다는 단점이 있다.

7.2.2. Analysis of sparsity

순차적 희소 베이지안 학습 알고리즘은 다음과 같다.

  1. 회귀 문제를 푼다면, \beta를 초기화한다.
  2. 하나의 기저 함수 \mathbf{\varphi}_{1}와 초매개변수 \alpha_{1} = \frac{s_{1}^{2}}{q_{1}^{2} - s_{1}}을 이용해 초기화한다.
  3. \mathbf{\Sigma}\mathbf{m}, 그리고 모든 기저함수의 q_{i}s_{i}를 구한다.
  4. 후보 기저 함수 \mathbf{\varphi}_{i}를 선택한다.
  5. q_{i}^{2} > s_{i}\alpha_{i} < \infty\alpha_{i} = \frac{s_{i}^{2}}{q_{i}^{2} - s_{i}}을 이용해 업데이트한다.
  6. q_{i}^{2} \leq s_{i}\alpha_{i} < \infty면 기저 함수 \mathbf{\varphi}_{i}를 모델에서 제거하고 \alpha_{i} = \infty라 놓는다.
  7. 회귀 문제를 푼다면, \beta를 업데이트한다.
  8. 수렴했다면 종료하고, 아니면 3번으로 되돌아간다.

7.2.3. RVM for classification

연관 벡터 기계는 자동 연관 판별 사전분포 p(\mathbf{w} | \mathbf{\alpha}) = \prod_{i=1}^{M} \mathcal{N}(w_{i} | 0, \alpha_{i}^{-1})를 적용함으로써 분류 문제에도 확장시킬 수 있다. 이는 라플라스 근사로 사후분포를 근사할 수 있다. K 클래스 분류 문제에 대해서는 소프트맥스 함수로 출력을 바꾸면 된다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중