3. Linear Models for Regression

이 장에서는 회귀에 대해 다룬다. 이는 입력 변수에 대한 연속적인 대상 변수를 예측하는 것이다. 여기서 다룰 회귀는 대상 변수가 입력 변수에 대해 선형 함수인 선형 회귀이나, 적당한 기저 함수를 적용해 기저 함수에 대한 선형 함수가 되는 회귀로 확장할 수 있다. 확률적으로 보자면, 입력 데이터에 대한 예측분포를 모델링하면서 적당한 손실 함수를 최소화시키는 예측분포를 택하는 것으로 볼 수 있다.

3.1. Linear Basis Function Models

가장 간단한 선형 회귀 모델은 y(\mathbf{x}, \mathbf{w}) = w_{0} + w_{1}x_{1} + \cdots + w_{D}x_{D}이다. 여기에 선형 또는 비선형 기저 함수를 적용해 비선형 함수를 모델링할 수 있는 모델 y(\mathbf{x}, \mathbf{w}) = w_{0} + \sum_{j=1}^{M-1} w_{j} \phi_{j}(\mathbf{x}) = \mathbf{w}^{T} \mathbf{\phi}(\mathbf{x})도 생각할 수 있다. 기저 함수를 \phi_{j}(x) = x^{j}로 선택한 경우를 다항식 회귀라 한다. \phi_{j}(x) = e^{-\frac{(x - \mu_{j})^{2}}{2s^{2}}} 등의 가우시안 기저 함수, \phi_{j}(x) = \rho(\frac{x - \mu_{j}}{s}) 등의 시그모이드 기저 함수도 존재한다. 이외에도 다양한 기저 함수가 있다.

3.1.1. Maximum likelihood and least squares

선형 회귀에 대한 사후예측분포는 다음과 같이 나타낼 수 있다:

p(t | \mathbf{x}, \mathbf{w}, \beta) = \mathcal{N}(t | y(\mathbf{x}, \mathbf{w}), \beta^{-1})

이 때 조건부 평균은 \mathbb{E}[t | \mathbf{x}] = y(\mathbf{x}, \mathbf{w})가 된다.

가능도는 다음과 같아진다.

p(\mathbf{t} | \mathbf{X}, \mathbf{w}, \beta) = \prod_{n=1}^{N} \mathcal{N}(t_{n} | \mathbf{w}^{T} \mathbf{\phi}(\mathbf{x}_{n}), \beta^{-1})

이 때 로그 가능도는 다음과 같다.

\ln p(\mathbf{t} | \mathbf{w}, \beta) = \frac{N}{2} \ln \beta - \frac{N}{2} \ln (2 \pi) - \beta \frac{1}{2} \sum_{n=1}^{N} [t_{n} - \mathbf{w}^{T} \mathbf{\phi}(\mathbf{x}_{n})]^{2}

이의 경사도는 다음과 같다.

\nabla \ln p(\mathbf{t} | \mathbf{w}, \beta) = \beta \sum_{n=1}^{N} [t_{n} - \mathbf{w}^{T} \mathbf{\phi}(\mathbf{x}_{n})] \mathbf{\phi}(\mathbf{x}_{n})^{T}

이를 0으로 놓는 최대가능도근사는 다음과 같다.

\mathbf{w}_{MLE} = (\mathbf{\Phi}^{T} \mathbf{\Phi})^{-1} \mathbf{\Phi}^{T} \mathbf{t}

\frac{1}{\beta_{MLE}} = \frac{1}{N} \sum_{n=1}^{N} [t_{n} - \mathbf{w}_{MLE}^{T} \mathbf{\phi}(\mathbf{x}_{n})]^{2}

여기서 편향치는 기저함수값의 가중평균과 대상값의 평균간의 차이를 보정하는 역할을 함을 알 수 있다.

3.1.2. Geometry of least squares

선형 회귀의 최대가능도근사는 대상값의 기저함수값들에 의해 생성되는 부분공간에 대한 정사영과 같다. 실제로는 이 해를 직접 계산하는 것은 \mathbf{\Phi}^{T} \mathbf{\Phi}가 역행렬이 없는 행렬에 가까워질 때 어려워진다. 이 때는 특이값 분해를 써서 해결한다.

3.1.3. Sequential learning

순차적으로 데이터가 들어올 때에는 순차적 경사 하강 \mathbf{w}_{\tau + 1} = \mathbf{w}_{\tau} - \eta \nabla E_{n}을 생각할 수 있다. 이 때 학습률 \eta은 주의깊게 정해져야 한다.

3.1.4. Regularized least squares

정규화 항 E_{w}(\mathbf{w}) = \frac{\lambda}{2} \mathbf{w}^{T} \mathbf{w}을 오차항에 더해 정규화할 수 있다. 이 때 해는 다음과 같다.

\mathbf{w}_{MLE} = (\lambda \mathbf{I} + \mathbf{\Phi}^{T} \mathbf{\Phi})^{-1} \mathbf{\Phi}^{T} \mathbf{t}

더 일반적인 정규화 항은 \frac{\lambda}{2} \sum_{j=1}^{M} \lvert w_{j} \rvert^{q}이 된다. q = 2가 일반적인 정규화이며 q = 1일 경우 라쏘 정규화라 한다. 이 때 \lambda가 적당히 크면 희박한 해를 유도한다.

3.1.5. Multiple outputs

대상 변수가 다변수일 때도 있다. 이 때 해는 다음과 같다.

\mathbf{W}_{MLE} = (\mathbf{\Phi}^{T} \mathbf{\Phi})^{-1} \mathbf{\Phi}^{T} \mathbf{T}

3.2. The Bias-Variance Decomposition

빈도주의적 관점에서 모델의 복잡도 문제는 편향-분산 트레이드오프라는 말로 논할 수 있다. 예를 들어 보자면, 이차 손실 함수의 기대값은 다음과 같이 분해된다:

\mathbb{E}_{\mathcal{D}} [(y(\mathbf{x} : \mathcal{D}) - h(\mathbf{x}))^{2}] = (\mathbb{E}_{\mathcal{D}}[y(\mathbf{x}; \mathcal{D})] - h(\mathbf{x}))^{2} + \mathbb{E}_{\mathcal{D}}[(y(\mathbf{x}; \mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\mathbf{x}; \mathcal{D})])^{2}]

이 때 첫번째 항은 편향의 제곱이고, 두 번째 항은 분산이다. 여기에 노이즈 항 \int \int (h(\mathbf{x}) - t)^{2} p(\mathbf{x}, t) d\mathbf{x} dt을 추가하면 기대제곱손실함수가 된다. 유연한 모델은 낮은 편향과 높은 분산을, 엄격한 모델은 높은 편향과 낮은 분산을 갖는다.

3.3. Bayesian Linear Regression

여기서는 선형 회귀에 대해 베이지안적 접근법을 적용해 과적합을 방지하는 방법을 알아본다.

3.3.1. Parameter distribution

이를 위해서는 사전분포 p(\mathbf{w}) = \mathcal{N}(\mathbf{w} | \mathbf{m}_{0}, \mathbf{S}_{0})을 적용한다.

이를 적용했을 시의 사후분포는 다음과 같다. p(\mathbf{w} | \mathbf{t}) = \mathcal{N}(\mathbf{w} | \mathbf{m}_{N}, \mathbf{S}_{N})

\mathbf{m}_{N} = \mathbf{S}_{N}(\mathbf{S}_{0}^{-1} \mathbf{m}_{0} + \beta \mathbf{\Phi}^{T} \mathbf{t})

\mathbf{S}_{N}^{-1} = \mathbf{S}_{0}^{-1} + \beta \mathbf{\Phi}^{T} \mathbf{\Phi}

다음과 같은 더 간단한 형태의 사전분포를 쓸 수도 있다.

p(\mathbf{w} | \alpha) = \mathcal{N}(\mathbf{w} | \mathbf{0}, \alpha^{-1} \mathbf{I})

이 때 사후분포는 다음과 같다.

\mathbf{m}_{N} = \beta \mathbf{S}_{N} \mathbf{\Phi}^{T} \mathbf{t}

\mathbf{S}_{N}^{-1} = \alpha \mathbf{I} + \beta \mathbf{\Phi}^{T} \mathbf{\Phi}

이는 \lambda = \frac{\alpha}{\beta} 를 차용한 정규화와 같다.

p(\mathbf{w} | \alpha) = [\frac{q}{2} (\frac{\alpha}{2})^{\frac{1}{q}} \frac{1}{\Gamma(\frac{1}{q})}]^{M} e^{-\frac{\alpha}{2} \sum_{j=0}^{M-1} \lvert w_{j} \rvert^{q}} 형태의 다른 사전분포를 차용할 수도 있다.

3.3.2. Predictive distribution

다음 입력에 대한 출력을 예측하는 예측분포는 다음과 같다.

p(t | \mathbf{t}, \alpha, \beta) = \int p(t | \mathbf{w}, \beta) p(\mathbf{w} | \mathbf{t}, \alpha, \beta) d \mathbf{w}

가우시안의 경우 이는 다음과 같다.

p(t | \mathbf{x}, \mathbf{t}, \alpha, \beta) = \mathcal{N}(t | \mathbf{m}_{N}^{T} \mathbf{\phi}(\mathbf{x}), \sigma_{N}^{2} (\mathbf{x}))

\sigma_{N}^{2} (\mathbf{x}) = \frac{1}{\beta} + \mathbf{\phi}(\mathbf{x})^{T} \mathbf{S}_{N} \mathbf{\phi}(\mathbf{x})

3.3.3. Equivalent kernel

사후평균은 다음과 같이 써질 수 있다: y(\mathbf{x}, \mathbf{m}_{N}) = \sum_{n=1}^{N} k(\mathbf{x}, \mathbf{x}_{n}) t_{n}

k(\mathbf{x}, \mathbf{x}^{\prime}) = \beta \mathbf{\phi}(\mathbf{x})^{T} \mathbf{S}_{N} \mathbf{\phi}(\mathbf{x}^{\prime})

이 함수를 등가 커널 또는 다듬질 행렬이라 한다. 이 때 공분산은 다음과 같다.

\mathrm{cov}[y(\mathbf{x}), y(\mathbf{x}^{\prime})] = \beta^{-1} k(\mathbf{x}, \mathbf{x}^{\prime})

선형 회귀를 커널 함수에 대해 나타내는 접근법에 착안해 회귀에 대해 다른 접근법을 적용할 수 있는데, 기저 함수를 도입하는 대신 국소적 커널을 직접 정의해 이를 통해 새 입력에 대한 예측을 수행하는 것이다. 가우시안 과정이 이의 예이다.

커널의 성질은 다음을 만족한다.

\sum_{n=1}^{N} k(\mathbf{x}, \mathbf{x}_{n}) = 1

k(\mathbf{x}, \mathbf{z}) = \mathbf{\psi}(\mathbf{x})^{T} \mathbf{\psi}(\mathbf{z}), \mathbf{\psi}(\mathbf{x}) = \beta^{\frac{1}{2}} \mathbf{S}_{N}^{\frac{1}{2}} \mathbf{\phi}(\mathbf{x})

3.4. Bayesian Model Comparison

베이지안적인 모델 비교는 모델의 선택에 따른 불확실성을 비교한다. 이는 p(\mathcal{M}_{i} | \mathcal{D}) \propto p(\mathcal{M}_{i}) p(\mathcal{D} | \mathcal{M}_{i})로 나타내어질 때 뒤의 항인 모델 증거도를 비교함으로써 이루어진다. 이 증거도간 비율을 베이즈 인자라고 한다. 모델 증거도는 다음과 같이 계산된다.

p(\mathcal{D} | \mathcal{M}_{i}) = \int p(\mathcal{D} | \mathbf{w}, \mathcal{M}_{i}) p(\mathbf{w} | \mathcal{M}_{i}) d \mathbf{w}

이 때 주변가능도는 다음과 같이 근사할 수 있다:

p(\mathcal{D}) = \int p(\mathcal{D} | w) p(w) dw  \simeq p(\mathcal{D} |  w_{MAP}) \frac{\delta w_{posterior}}{\delta w_{prior}}

따라서 다음을 얻는다.

\ln p(\mathcal{D}) \simeq \ln p(\mathcal{D} | \mathbf{w}_{MAP}) + M \ln \frac{\delta w_{posterior}}{\delta w_{prior}}

베이지안적인 방법은 과적합 방지에 유용하지만 사전분포에 대한 가정이 필요하며 이 가정이 틀리다면 올바르지 못한 결과를 낳는다.

3.5. The Evidence Approximation

사후예측분포의 초매개변수에도 사전분포를 도입할 경우 예측분포는 다음과 같다.

p(t | \mathbf{t}) = \int \int \int p(t | \mathbf{w}, \beta) p(\mathbf{w} | \mathbf{t}, \alpha, \beta) p(\alpha, \beta | \mathbf{t}) d \mathbf{w} d \alpha d \beta

이는 다음과 같이 근사할 수 있다.

p(t | \mathbf{t}) \simeq p(t | \mathbf{t}, \hat{\alpha}, \hat{\beta}) = \int p(t | \mathbf{w}, \hat{\beta}) p(\mathbf{w} | \mathbf{t}, \hat{\alpha}, \hat{\beta}) d \mathbf{w}

이 때 초매개변수에 대한 사후분포는 다음과 같아진다.

p(\alpha, \beta | \mathbf{t}) \propto p(\mathbf{t} | \alpha, \beta) p(\alpha, \beta)

3.5.1. Evaluation of the evidence function

주변가능도는 다음과 같이 구할 수 있다.

p(\mathbf{t} | \alpha, \beta) = \int p(\mathbf{t} | \mathbf{w}, \beta) p(\mathbf{w} | \alpha) d \mathbf{w}

선형 가우시안 모델의 경우에는 이는 다음과 같다.

\ln p(\mathbf{t} | \alpha, \beta) = \frac{M}{2} \ln \alpha + \frac{N}{2} \ln \beta - E(\mathbf{m}_{N}) - \frac{1}{2} \ln \lvert \mathbf{A} \rvert - \frac{N}{2} \ln (2 \pi)

E(\mathbf{m}_{N}) = \frac{\beta}{2} \lVert \mathbf{t} - \mathbf{\Phi} \mathbf{m}_{N} \rVert^{2} + \frac{\alpha}{2} \mathbf{m}_{N}^{2} \mathbf{m}_{N}

\mathbf{A} = \alpha \mathbf{I} + \beta \mathbf{\Phi}^{T} \mathbf{\Phi}

3.5.2. Maximizing the evidence function

위의 예에서 주변가능도를 최대화시키는 \alpha는 다음과 같이 구할 수 있다.

(\beta \mathbf{\Phi}^{T} \mathbf{\Phi}) \mathbf{u}_{i} = \lambda_{i} \mathbf{u}_{i}

\gamma = \sum_{i} \frac{\lambda_{i}}{\alpha + \lambda_{i}}

\alpha = \frac{\gamma}{\mathbf{m}_{N}^{T} \mathbf{m}_{N}}

주변가능도를 최대화시키는 \beta는 다음과 같다.

\frac{1}{\beta} = \frac{1}{N - \gamma} \sum_{n=1}^{N} (t_{n} - \mathbf{m}_{N}^{T} \mathbf{\phi}(\mathbf{x}_{n}))^{2}

3.5.3. Effective number of parameters

위의 예에서 베이지안적 관점에서 데이터에 의해 결정되는 유효 매개변수 수는 \gamma가 됨을 알 수 있다. 이는 최대가능도근사로부터의 편향을 보정하는 역할을 한다.

3.6. Limitations of Fixed Basis Functions

기저 함수를 고정해 사용하는 선형 모델링에는 한계점이 명확히 존재하기 때문에 보조 벡터 기계나 신경망 등의 더 복잡한 모델도 자주 사용된다. 가장 큰 한계점은 차원의 저주로 인해 필요한 기저함수가 많아진다는 점이다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중