9. Generalized linear models and the exponential family

9.1. Introduction

많은 유용한 분포들은 지수족에 속한다. 지수족 함수는 클래스 조건 분포로 쓰여 생성적 분류기를 만들 수 있다. 또한 반응 변수의 분포가 지수족일 경우 구별적 분류기도 만들 수 있다. 이를 일반화된 선형 모델이라 하며, 로지스틱 회귀의 일반화라 볼 수 있다.

9.2. The exponential family

  • 특정한 정규 조건에서, 지수족만이 유한 개의 충족 통계량을 가지는 분포족이 된다. 즉, 지수족만이 데이터의 정보를 유한 크기로 손실 없이 압축할 수 있는 모델이다. 이는 온라인 학습에 유용하다.
  • 지수족에만 켤레사전분포가 존재한다.
  • 사용자 정의 조건에 대해, 지수족은 가장 적은 추가 가정이 필요한 분포족이다.
  • 지수족은 일반화된 선형 모델의 핵심이다.
  • 지수족은 변량 추론의 핵심이다.

9.2.1. Definition

확률밀도함수 p(\mathbf{x} | \mathbf{\theta})p(\mathbf{x} | \mathbf{\theta}) = \frac{1}{Z(\mathbf{\theta})} h(\mathbf{x})e^{\mathbf{\theta}^{T} \mathbf{\phi}(\mathbf{x})} =  h(\mathbf{x}) e^{\mathbf{\theta}^{T} \mathbf{\phi}(\mathbf{x}) - A(\mathbf{\theta})} 꼴이면 지수족이라 한다.

여기서 \mathbf{\theta}자연 매개변수 또는 기본 매개변수라 하고, \mathbf{\phi}(\mathbf{x})충족 통계량 벡터이며, Z(\mathbf{\theta})분할 함수, A(\mathbf{\theta})로그 분할 함수 또는 누적률 함수, h(\mathbf{x})는 비례상수이다. \mathbf{\phi}(\mathbf{x}) = \mathbf{x} 인 경우 자연지수족이라 한다.

위의 식은 p(\mathbf{x} | \mathbf{\theta}) = h(\mathbf{x}) e^{\eta(\mathbf{\theta})^{T} \mathbf{\phi}(\mathbf{x}) - A(\eta(\mathbf{\theta}))} 로 일반화될 수 있는데, 이 때 \mathrm{dim}(\mathbf{\theta}) <  \mathrm{dim}(\eta(\mathbf{\theta}))이면 곡선 지수족이라 하며 이 때에는 충족 통계랑의 수가 매개변수보다 많아지게 된다. \eta(\mathbf{\theta}) = \mathbf{\theta}라면 모델은 자연 형태가 된다고 한다. 기본적으로 모델은 자연 형태로 가정한다.

9.2.2. Examples

9.2.2.1. Bernoulli

베르누이 분포를 \mathrm{Ber}(x | \mu) = e^{ mathbf{\theta}^{T} \mathbf{\phi}(\mathbf{x}) } 꼴로 쓸 때 \mathbf{\theta} = [\log(\mu), \log(1 - \mu)], \mathbf{\phi}(\mathbf{x}) = [\mathbf{1}_{x = 0}, \mathbf{1}_{x = 1}] 로 잡을 수는 없다. \mathbf{\phi}(\mathbf{x})의 성분이 선형종속이기 때문에 \mathbf{\theta}가 유일하게 결정되지 않는 과완전 상태가 되기 때문이다. 때문에 표현식에 대해서 \mathbf{\theta}가 유일하게 결정되어야 한다는 최소 조건을 둔다. 이 경우에는 \mathrm{Ber}(x | \mu) = (1 - \mu)e^{x \log(\frac{\mu}{1 - \mu})} 꼴로 쓸 때 \phi(x) = x, \theta = \log (\frac{\mu}{1 - \mu}) 로 둘 수 있다. Z = \frac{1}{1 - \mu} , \mu = \frac{1}{1 + e^{-\theta}} 이 된다.

9.2.2.2. Multinoulli

다항 베르누이 분포는 다음과 같이 쓸 수 있다.

\mathrm{Cat}(x | \mathbf{\theta}) = e^{ \mathbf{\theta}^{T} \mathbf{\phi}(\mathbf{x}) - A(\mathbf{\theta}) }

\mathbf{\theta} = [\log \frac{\mu_{1}}{\mu_{K}}, \cdots,  \log \frac{\mu_{K-1}}{\mu_{K}}  ]

\mathbf{\phi}(x) = [\mathbf{1}_{x = 1}, \cdots, \mathbf{1}_{x = K - 1}]

이 때 \mu_{k} = \frac{e^{\theta_{k}} }{1 +  \sum_{j=1}^{K-1}e^{\theta_{j}} }, \mu_{K} = \frac{1}{1 +  \sum_{j=1}^{K-1}e^{\theta_{j}} }, A(\mathbf{\theta}) = \log(1 +  \sum_{j=1}^{K-1}e^{\theta_{j}} )이 된다.

9.2.2.3. Univariate Gaussian

1차원 가우시안 함수는 다음과 같이 쓸 수 있다.

\mathcal{N}(x | \mu, \sigma^{2}) = \frac{1}{Z(\mathbf{\theta})}e^{\mathbf{\theta}^{T} \mathbf{\phi}(x)}

\mathbf{\theta} = [\frac{\mu}{\sigma^{2}}, -\frac{1}{2 \sigma^{2}} ]

\mathbf{\phi}(x) = [x, x^{2}]

Z(\mu, \sigma^{2}) = \sqrt{2 \pi} \sigma e^{\frac{\mu^{2}}{2\sigma^{2}}}

A(\mathbf{\theta}) = -\frac{\theta_{1}^{2}}{4 \theta_{2}} - \frac{1}{2} \log (-2 \theta_{2}) - \frac{1}{2} \log (2 \pi)

9.2.2.4. Non-examples

균등 분포나 스튜던트 T 분포는 지수족이 아니다.

9.2.3. Log partition function

로그 분할 함수는 충족 통계랑의 누적치를 구하는 데 쓸 수 있기 때문에 누적 함수라고 불리기도 한다. \frac{dA}{d \mathbf{\theta}} = \mathbb{E}[\mathbf{\phi}(\mathbf{x})] , \nabla^{2} A(\mathbf{\theta}) = \mathrm{cov}[\mathbf{\phi}(\mathbf{x})] 을 만족한다. 공분산은 양의 정부호이므로 로그 분할 함수는 볼록이다.

9.2.3.1. Example: the Bernoulli distribution

\frac{dA}{d \theta} = \frac{1}{1 + e^{-\theta}} = \mu ,

\frac{d^{2}A}{d \theta^{2}} = (1 - \mu)\mu 이 됨을 알 수 있다.

9.2.4. MLE for the exponential family

지수족의 가능도는 p(\mathcal{D} | \mathbf{\theta}) = [\prod_{i=1}^{N} h(\mathbf{x}_{i})] g(\mathbf{\theta})^{N} e^{\mathbf{\eta}(\mathbf{\theta})^{T} [\sum_{i=1}^{N} \mathbf{\phi}(\mathbf{x}_{i})]} 가 된다. 충족 통계량은 \mathbf{\phi}(\mathcal{D}) = [\sum_{i=1}^{N} \phi_{1} (\mathbf{x}_{i}), \cdots,  \sum_{i=1}^{N} \phi_{K} (\mathbf{x}_{i}) ] 과 N이 된다.

피트만-쿠프만-다르무아 정리에 의하면, 어떤 조건 하에서는 지수족만이 유한 충족 통계량을 가진 분포군이 된다. 이 조건 중 하나는 분포의 지지집합이 매개변수에 의존적이지 않는 것이다. 균등 분포의 경우 지지집합이 [0, \theta]이므로 매개변수에 의존적이게 되어 이 정리의 조건이 되지 않는다.

기본형 지수족의 최대가능도추정을 계산하자면, 로그 가능도는 \mathbf{\theta}^{T} \mathbf{\phi}(\mathcal{D}) - N A(\mathbf{\theta}) 인데, 이는 선형 함수와 오목 함수의 합이므로 오목 함수가 되어 유일한 전역 최대값을 갖는다. \nabla_{\mathbf{\theta}} \log p(\mathcal{D} | \mathbf{\theta}) = \mathbf{\phi}(\mathcal{D}) - N \mathbb{E}[\mathbf{\theta}(\mathbf{X})] = 0 으로 놓으면 최대가능도추정 \hat{\mathbf{\theta}}\mathbb{E}[\mathbf{\theta}(\mathbf{X})] = \frac{1}{N} \sum_{i=1}^{N} \mathbf{\phi}(\mathbf{x}_{i}) 을 만족해야 함을 알 수 있다. 이를 모멘트 매칭이라 한다.

9.2.5. Bayes for the exponential family

켤레사전분포가 존재하려면 가능도가 유한 개의 충족통계량을 가져야만 하며, 이는 분포가 지수족이어야 한다.

9.2.5.1. Likelihood

지수족의 가능도는 p(\mathcal{D} |\mathbf{\theta}) \propto g(\mathbf{\theta})^{N} e^{\mathbf{\eta}(\mathbf{\theta})^{T} \sum_{i=1}^{N} \mathbf{\phi}_{i}(\mathbf{x}_{i})} 이다. 자연 매개변수로 나타내면 p(\mathcal{D} |\mathbf{\eta}) \propto e^{N \mathbf{\eta}^{T} \bar{\mathbf{\phi}} - N A(\mathbf{\eta})} 가 된다.

9.2.5.2. Prior

사전분포는 p(\mathbf{\theta} | \nu_{0}, \mathbf{\tau}_{0}) \propto   g(\mathbf{\theta})^{\nu_{0}} e^{\mathbf{\eta}(\mathbf{\theta})^{T}  \mathbf{\tau}_{0}} 으로 나타낼 수 있으며, \bar{\mathbf{\tau}}_{0} = \nu_{0} \mathbf{\tau}_{0}으로 잡으면 자연 매개변수에 대해 p(\mathbf{\eta} |  \nu_{0}, \mathbf{\tau}_{0}) \propto e^{\nu_{0} \mathbf{\eta}^{T} \bar{\mathbf{\eta}}_{0} - \nu_{0} A(\mathbf{\eta})} 꼴이 된다.

9.2.5.3. Posterior

사후분포는 초매개변수를 더함으로써 얻을 수 있으며, p(\mathbf{\theta} | \mathcal{D}) \propto   p(\mathbf{\theta} | \nu_{0} + N, \mathbf{\tau}_{0} + \sum_{i=1}^{N} \mathbf{\phi}(\mathbf{x}_{i})) 이 된다. 자연 매개변수 꼴로는 p(\mathbf{\eta} | \mathcal{D}) \propto p(\mathbf{\eta} | \nu_{0} + N, \frac{\nu_{0} \bar{\mathbf{\eta}_{0}} + N \bar{\mathbf{\phi}}}{\nu_{0} + N}) 이 된다. 즉 사후분포의 초매개변수는 사전평균 초매개변수와 충족 통계량의 평균의 가중치합이다.

9.2.5.4. Posterior predictive density

사후예측분포는 다음과 같다.

p(\mathcal{D}^{\prime} | \mathcal{D}) = [\prod_{i=1}^{N^{\prime}} h(\tilde{\mathbf{x}}_{i}) ] \frac{Z(\tilde{\mathbf{\tau}}_{0} + \tilde{\mathbf{\phi}}(\mathcal{D}) +  \tilde{\mathbf{\phi}}(\mathcal{D}^{\prime}) )}{ Z(\tilde{\mathbf{\tau}}_{0} + \tilde{\mathbf{\phi}}(\mathcal{D})) }

N = 0이면 (이미 관측한 데이터가 없으면), 이는 차후 데이터의 주변가능도가 된다.

9.2.5.5. Example: Bernoulli distribution

베르누이 분포에 대해 이를 적용해보자.

가능도는 p(\mathcal{D} | \theta) = (1 - \theta)^{N} e^{\log \frac{\theta}{1 - \theta} \sum_{i} x_{i}}

켤레사전분포는 p(\theta | \nu_{0}, \tau_{0}) \propto \theta^{\tau_{0}} (1 - \theta)^{\nu_{0} - \tau_{0}}

사후분포는 s = \sum_{i} \mathbf{1}_{x_{i} = 1} 이라 할 때 p(\theta | \nu_{0}, \tau_{0}) \propto \theta^{\tau_{0} + s} (1 - \theta)^{\nu_{0} - \tau_{0} + n - s} =  \theta^{\tau_{n}} (1 - \theta)^{\nu_{n} - \tau_{n}}

사후예측분포는 \alpha_{n+m} = \alpha_{n} + s^{\prime} = \alpha + s^{\prime} + s, \beta_{n+m} = \beta_{n} + m - s^{\prime} = \beta n - s + m - s^{\prime}으로 잡을 때 p(\mathcal{D}^{\prime} | \mathcal{D}) = \frac{\Gamma(\alpha_{n} + \beta_{n}) \Gamma(\alpha_{n+m}) \Gamma(\beta_{n+m}) }{ \Gamma(\alpha_{n})\Gamma(\beta_{n}) \Gamma(\alpha_{n+m} + \beta_{n+m}) }

9.2.6. Maximum entropy derivation of the exponential family

지수족은 데이터를 모델링할 때 추가적으로 필요한 가정이 가장 적은 분포군이다. 아는 정보가 함수들의 기대값 \sum_{\mathbf{x}} f_{k}(\mathbf{x}) p(\mathbf{x}) = F_{k} 밖에 없을 때, 최대 엔트로피(맥센트) 원리에 의하면 이 함수들의 실측 모멘트들에 맞는 분포들 중 엔트로피를 최대로 만드는 것을 택하는 것이 가장 이상적이다.

라그랑지안은 J(p, \mathbf{\lambda}) = -\sum_{\mathbf{x}} p(\mathbf{x}) \log p(\mathbf{x}) + \lambda_{0}(1 -  \sum_{\mathbf{x}} p(\mathbf{x}) ) +  \sum_{k} \lambda_{k}(F_{k} - \sum_{\mathbf{x}} p(\mathbf{x}) f_{k}(\mathbf{x})) 이 되고, \frac{\partial J}{\partial p(\mathbf{x})} = 0 으로 놓으면 p(\mathbf{x}) = \frac{1}{e^{1 + \lambda_{0}}} e^{-\sum_{k} \lambda_{k} f_{k}(\lambda{x})} 이 되므로 p(\mathbf{x})는 지수족에 속한다 할 수 있다. 이 형태를 깁스 분포라 한다.

9.3. Generalized linear models(GLMs)

선형 회귀와 로지스틱 회귀는 일반화된 선형 모델(GLM)의 예이다. 이는 출력 분포가 지수족이고 평균 매개변수가 입력을 전처리한 중간 결과물의 선형결합이 되는 모델을 말한다.

9.3.1. Basics

스칼라 반응 변수 p(y_{i} | \theta, \sigma^{2}) = e^{\frac{y_{i} \theta - A(\theta)}{\sigma^{2}} + c(y_{i}, \sigma^{2}) } 를 가지는 분포를 고려해 보자. 여기서 \sigma^{2}산포 매개변수, \theta는 자연 매개변수, A는 분할 함수, c는 표준화 상수이다. 평균 매개변수에서 자연 매개변수를 원복할 때에는 함수 \theta = \psi(\mu)를 사용할 수 있다. 이 함수는 지수함수족에 의해 유일하게 결정되는 가역함수이며 그 역은 분할함수의 도함수가 된다.

입력/공분산도 생각해 보자. 입력에 대한 선형 함수 \eta_{i} = \mathbf{w}^{T} \mathbf{x}_{i}가 있을 때 분포의 평균은 이 선형결합에 대한 가역단조함수(평균 함수)라 할 수 있다. 이를 g^{-1}이라 하면 \mu_{i} = g^{-1}(\mathbf{w}^{T} \mathbf{x}_{i})이 된다. 평균 함수의 역은 연결 함수 g로 불린다. g = \psi일 때 이를 자연적 연결 함수라 하며 이 경우에는 \theta_{i} = \eta_{i} = \mathbf{w}^{T}\mathbf{x}_{i} 이 되므로 모델은 p(y_{i} | \mathbf{x}_{i}, \mathbf{w}, \sigma^{2}) = e^{\frac{y_{i} \mathbf{w}^{T} \mathbf{x}_{i} - A(\mathbf{w}^{T} \mathbf{x}_{i})}{\sigma^{2}} + c(y_{i}, \sigma^{2})} 이다. 이 때 기대값은 \frac{dA}{d \theta_{i}}, 분산은 \frac{d^{2}A}{d \theta_{i}^{2}} 이다.

  • 선형 회귀에서는 \theta_{i} = \mu_{i} = \mathbf{w}^{T} \mathbf{x}_{i}, A(\theta) = \theta^{2} / 2 , \mathbb{E}[y_{i}] = \mu_{i} , \mathrm{var}[y_{i}] = \sigma^{2} 가 된다.
  • 이진 로지스틱 회귀에서는 \pi_{i} = \mathrm{sigm}(\mathbf{w}^{T} \mathbf{x}_{i}) , \theta_{i} = \log \frac{\pi_{i}}{1 - \pi_{i}} = \mathbf{w}^{T} \mathbf{x}_{i} , \sigma^{2} = 1, A(\theta) = N_{i} \log (1 + e^{\theta}) , \mathbb{E}[y_{i}] =  N_{i} \pi_{i} = \mu_{i} , \mathrm{var}[y_{i}] = N_{i} \pi_{i} (1 - \pi_{i}) 가 된다.
  • 푸아송 회귀에서는 \mu_{i} = e^{\mathbf{w}^{T} \mathbf{x}_{i}} , \theta_{i} = \log \mu_{i} = \mathbf{w}^{T} \mathbf{x}_{i} , \sigma^{2} = 1, A(\theta) = e^{\theta} , \mathbb{E}[y_{i}] =  \mathrm{var}[y_{i}]  = \mu_{i} 가 된다.

9.3.2. ML and MAP estimation

일반화된 선형 모델의 중요한 특성은 로지스틱 회귀를 피팅하는 것과 같은 방법으로 피팅할 수 있다는 것이다. 로그 가능도는 l(\mathbf{w}) = \frac{1}{\sigma^{2}} \sum_{i=1}^{N} l_{i} =  \frac{1}{\sigma^{2}} \sum_{i=1}^{N} (\theta_{i} y_{i} - A(\theta_{i})) 의 꼴을 가지는데, 자연적 연결 함수를 가정하면 (\theta_{i} = \eta_{i}) \nabla_{\mathbf{w}} l(\mathbf{w}) = \frac{1}{\sigma^{2}} [\sum_{i=1}^{N} (y_{i} - \mu_{i}) \mathbf{x}_{i}] 이 되어 추계적 그라디언트 하강법을 사용할 수 있다. 또는 헤시안 \mathbf{H} = -\frac{1}{\sigma^{2}} \mathbf{X}^{T} \mathbf{S} \mathbf{X} 에 대해 반복 재가중 최소제곱법(IRLS) 알고리즘을 사용할 수도 있다.

자연적 연결 함수를 사용하지 않으면 헤시안 대신 헤시안의 기대값을 써야 하는데 이를 피셔 점수법이라 한다.

가우시안 사전분포를 도입한 최대사후확률추정은 쉽게 유도할 수 있는데, 로지스틱 회귀에서 l_{2} 정규화를 할 때처럼 하면 된다.

9.3.3. Bayesian inference

일반화된 선형 모델의 베이지안 추론은 마르코프 체인 몬테 카를로(MCMC)법 등을 주로 사용한다.

9.4. Probit regression

이진 로지스틱 회귀는 p(y = 1 | \mathbf{x}_{i} , \mathbf{w}) = \mathrm{sigm}(\mathbf{w}^{T} \mathbf{x}_{i}) 인 모델인데, 이를 일반화해 g^{-1} : [-\infty, \infty] \to [0, 1]인 함수에 대해 p(y = 1 | \mathbf{x}_{i} , \mathbf{w}) = g^{-1}(\mathbf{w}^{T} \mathbf{x}_{i}) 으로 잡을 수 있다. g^{-1} = \Phi가 표준정규분포의 누적질량함수일 경우를 프로빗 회귀라 하는데, 로지스틱 회귀와 비슷하지만 몇 가지 이점이 있다.

9.4.1. ML/MAP estimation using gradient-based optimization

최대가능도추정과 최대사후확률추정은 그라디언트 하강법으로 근사할 수 있다. 로그가능도의 그라디언트는 \mathbf{g}_{i} = \mathbf{x}_{i} \frac{y_{i} \phi(\mu_{i})}{\Phi(y_{i}\mu_{i})}, (여기서 \phi\Phi^{\prime}으로, 표준정규분포의 확률밀도함수), 헤시안은 \mathbf{H}_{i} = -\mathbf{x}_{i}(\frac{\phi(\mu_{i})^{2}}{\Phi(y_{i} \mu_{i})^{2}} + \frac{y_{i}\mu_{i}\phi(\mu_{i})}{\Phi(y_{i}\mu_{i})}    )\mathbf{x}_{i}^{T} 가 된다.

최대사후확률추정은 이를 약간 수정하면 쉽게 유도되는데, 사전분포 p(\mathbf{w}) = \mathcal{N}(\mathbf{0}, \mathbf{V}_{0})이라 하면 그라디언트는 \sum_{i} \mathbf{g}_{i} + 2 \mathbf{V}_{0}^{-1} \mathbf{w} , 헤시안은 \sum_{i} \mathbf{H}_{i} + 2 \mathbf{V}_{0}^{-1} 이 된다.

9.4.2. Latent variable interpretation

\mathbf{x}_{i}y_{i} = 0, 1을 선택했을 때의 잠재 효용값을 u_{0i}, u_{1i}라 하자. u_{ki} = \mathbf{w}_{k}^{T} \mathbf{x}_{i} + \delta_{ki} (\mathbf{w} = \mathbf{w}_{1} - \mathbf{w}_{0}이고 \delta_{ki}는 오차)라고 했을 때 y_{i} = \mathbf{1}_{u_{1i} > u_{0i}}로 볼 수 있다. 이를 무작위 효용 모델(RUM)이라 한다.

z_{i} = u_{1i} - u_{0i} = \mathbf{w}^{T} \mathbf{x}_{i} + \epsilon_{i} 라 하면 (\epsilon_{i} = \delta_{1i} - \delta_{0i}), \delta들이 가우시안일 경우 \epsilon_{i}도 가우시안이다. \epsilon_{i} \sim \mathcal{N}(0, 1)임을 가정하면 y_{i} = \mathbf{1}_{z_{i} \geq 0}이 되는데, 이를 차분 무작위 효용 모델(dRUM)이라 한다. z_{i}를 적분하면 p(y_{i} = 1 | \mathbf{x}_{i}, \mathbf{w}) = \Phi(\mathbf{w}^{T}\mathbf{x}_{i})가 되어 프로빗 모델이 됨을 알 수 있다. 그러므로 프로빗 모델은 잠재 변수 표현으로 나타내는 것이 가능하다.

9.4.3. Ordinal probit regression

프로빗 회귀의 잠재 변수 표현은 반응 변수를 서수인 경우로 확장할 수 있다는 장점이 있다. 이를 서수 회귀라 한다. 이는 C + 1개의 기준값 \gamma_{0} \leq \cdots \leq \gamma_{C}에 대해 z_{i} \in [\gamma_{j-1}, \gamma_{j}]이면 y_{i} = j로 정의하는 것이다.

최대가능도추정은 이진 프로빗 회귀보다는 어려운데, EM 알고리즘을 적용해 근사할 수 있다. 이 모델에 대한 깁스 샘플링 알고리즘도 유도할 수 있다.

9.4.4. Multinomial probit models

반응 변수가 범주 변수라면 다항 프로빗 모델은 z_{ic} = \mathbf{w}^{T} \mathbf{x}_{ic} + \epsilon_{ic}, \mathbf{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{R}), y_{i} = \mathrm{argmax}_{c} z_{ic}으로 정의된다. 이 때 \mathbf{R}은 상관관계 행렬이다. y_{ic} = \mathbf{1}_{z_{ic} > 0}로 정의하면 이 모델은 다변수 프로빗 모델이 되고, 상관 관계가 있는 C개의 이진 결과물을 모델링하게 된다.

9.5. Multi-task learning

여러 분류/회귀 모델의 입-출력 함수가 비슷하다고 가정하고 한꺼번에 학습하는 것을 다중 작업 학습, 전이 학습, 또는 학습에 대한 학습이라 한다. 이는 계층 베이지안 모델이나 가우시안 과정 등을 통해 이뤄진다.

9.5.1. Hierarchical Bayes for multi-task learning

y_{ij}를 j번째 그룹의 i번째 항목의 반응 변수라 하자. 예를 들면 그룹은 학교, 항목은 그 학교의 학생, y_{ij}를 시험 점수 등으로 가정할 수 있다. 또는 j를 사람, i를 물품의 구입, y_{ij}를 구입한 물품의 인덱스 등으로 가정할 수 있다. (이를 이산적 선택 모델링이라 한다) \mathbf{x}_{ij}y_{ij}에 연관된 특성 벡터라 할 때, 모든 j에 대해 p(\mathbf{y}_{j} | \mathbf{X}_{j})를 어떻게 피팅해야 할까?

모델을 독립적으로 피팅하는 대신, 그룹 내에서 모델 매개변수들이 비슷한 분포에서 온다고 가정하는 방법이 있다. 연결 함수 g에 대해 \mathbb{E}[y_{ij} | \mathbf{x}_{ij}] = g(\mathbf{x}_{ij}^{T} \mathbf{\beta}_{j}) 이라 할 때, \mathbf{\beta}_{j} \sim \mathcal{N}(\mathbf{\beta}_{\ast}, \sigma_{j}^{2} \mathbf{I}), \mathbf{\beta}_{\ast} \sim \mathcal{N}(\mathbf{\mu}, \sigma_{\ast}^{2} \mathbf{I}) 라 하면 이 모델은 작은 표본 크기를 가진 각각의 그룹들이 표본 크기가 더 큰 그룹들로부터 통계적 세기를 빌린다고 할 수 있다. \sigma_{j}^{2}는 그룹 j가 공통 부모모델에 얼마나 의존하는지를 나타내고 \sigma_{\ast}^{2}는 공통 부모모델(사전분포)의 세기를 결정한다.

\mathbf{\mu} = \mathbf{0}이고 \sigma_{j}^{2}, \sigma_{\ast}^{2}가 아는 값이라 가정하면 (즉, 교차검증을 통해 세팅할 수 있다면) 전체 로그 가능도는

\log p(\mathcal{D} | \mathbf{\beta}) + \log p(\mathbf{\beta}) = \sum_{j} [ \log p (\mathcal{D}_{j} | \mathbf{\beta}_{j}) - \frac{\lVert \mathbf{\beta}_{j} - \mathbf{\beta}_{\ast} \rVert^{2}}{2 \sigma_{j}^{2}}] -  \frac{\lVert \mathbf{\beta}_{\ast} \rVert^{2}}{2 \sigma_{\ast}^{2}}

가 된다. 이는 그라디언트 하강법으로 \mathbf{\beta} = (\mathbf{\beta}_{1 : J}, \mathbf{\beta}_{\ast})에 대한 최대사후확률추정이 가능하다. 가능도와 사전분포가 볼록함수이어서 전역 최적점으로의 수렴이 보장되므로 \mathbf{\beta}_{\ast}\mathbf{\beta}_{j}를 번갈아가면서 최적화시키는 반복 알고리즘을 사용하는 것도 가능하다. 모델들을 전부 학습시키고 나면 \mathbf{\beta}_{\ast}는 더 이상 필요 없다.

9.5.2. Application to personalized email spam filtering

다중 작업 학습의 흥미로운 용례는 개인화된 스팸 필터링이다. 개개인에 대한 맞춤 스팸 분류기를 피팅하고 싶을 수 있는데, 대부분의 사용자들은 스팸 분류를 하지 않기 때문에 모델들을 각각 피팅하는 것은 어렵다. 때문에 일반화된 사용자 풀에 의해 학습된 공통된 사전분포에 의해 모델들이 유도되게 한다. 이 때는 각각의 특성 \mathbf{x}_{i}의 사본을 만들어 하나는 사용자 ID와 연결시키고 하나는 독립적으로 존재하게 하면 된다. 이 경우 사용자 ID를 u, \mathbf{w}_{j} = \mathbf{\beta}_{j} - \mathbf{\beta}_{\ast}이라 할 때 \mathbb{E}[y_{i} | \mathbf{x}_{i} , u = j] = (\mathbf{\beta}_{\ast}^{T} + \mathbf{w}_{j})^{T} \mathbf{x}_{i} 꼴을 갖는 분류기를 학습하게 된다고 볼 수 있다.

\sigma_{j}^{2} = \sigma_{\ast}^{2}를 가정하면 \mathbf{w}_{j} = \mathbf{\beta}_{\ast}에 대해 같은 정규화자 세기를 두게 되어 특성 증가 트릭을 쓰는 것과 같은데, 실제로는 이렇게 가정하지 않는 것이 보통 더 좋은 성능을 낸다.

9.5.3. Application to domain adaptation

도메인 적용은 다른 분포에서 추출한 데이터들로부터 분류기들을 학습시키는 것이다. 이는 다중 작업 학습에서 작업이 공통되었을 경우가 된다. 개체명 인식과 파싱 등의 자연어 처리 과제에 계층 베이지안 모델을 통한 도메인 적용이 쓰이는데, 각각의 데이터셋에 별개의 모델을 피팅하는 것에 대해서는 큰 성능향상이, 데이터를 혼합시키고 단일 모델을 피팅하는 것에 대해서는 작은 성능향상이 있다고 한다.

9.5.4. Other kinds of prior

다중 작업 학습에서는 보통 사전분포가 가우시안임을 가정한다. 그러나 결합 분석(사용자가 물건의 어떤 특성을 가장 좋아하는지 등)의 작업은 희소 사전분포가 가우시안보다 더 적합하다. 이를 다중 작업 특성 선택이라 한다.

여러 작업이 동등하게 유사하다는 가정을 하면 안 될 때도 있는데, 이 때는 다중 작업 학습이 오히려 성능을 떨어트리기도 한다(부정 전이). 이 경우엔 가우시안의 혼합분포 같은 유연한 사전분포를 쓰는 게 대안이 될 수 있다.

9.6. Generalized linear mixed models

다중 작업 학습을 확장시켜 반응 변수에서 항목 특성 \mathbf{x}_{ij} 외에도 그룹 특성 \mathbf{x}_{j}을 포함시킬 수 있다. 또한 매개변수를 \mathbf{\beta}_{j}로 서로 다르게 하지 않고 \mathbf{\alpha}로 공유시킬 수도 있다. 이 때 기저함수 \mathbf{\phi}_{k}에 대해 다음의 모델을 유도할 수 있다.

\mathbb{E}[y_{ij} | \mathbf{x}_{ij}, \mathbf{x}_{j}] = g(\mathbf{\phi}_{1}(\mathbf{x}_{ij})^{T} \mathbf{\beta}_{j} +  \mathbf{\phi}_{2}(\mathbf{x}_{j})^{T} \mathbf{\beta}_{j}^{\prime} +  \mathbf{\phi}_{3}(\mathbf{x}_{ij})^{T} \mathbf{\alpha} +  \mathbf{\phi}_{4}(\mathbf{x}_{j})^{T} \mathbf{\alpha}^{\prime}  )

\mathbf{\beta}_{j}의 개수는 그룹 수에 비례하지만 \mathbf{\alpha}는 그렇지 않음에 주의하라. 빈도학파에서는 이 항들을 각각 무작위 효과, 고정 효과로 부른다. 무작위 효과와 고정 효과를 모두 모델링하는 모델을 혼합 모델이라 한다. p(y | \mathbf{x})이 일반화된 선형 모델이라면 전체 모델은 일반화된 선형 혼합 효과 모델(GLMM)이라 한다.

9.6.1. Example: semi-parametric GLMMs for medical data

y_{ij}를 i번째 측정 기관에서 사람 j의 척추 골밀도, x_{ij}를 사람의 나이, x_{j}를 인종이라 할 때 나이를 고려했을 때 4개의 인종간 골밀도의 유의미한 차이가 있는가? 이는 선형 회귀와 비매개변수 회귀를 결합한 반-매개변수 모델을 사용할 수 있다. 인종 내에서 개인간에도 차이가 있으므로 혼합 효과 모델을 사용한다. 개개인의 무작위 효과를 모델링하기 위해 \mathbf{\phi}_{1}(x_{ij}) = 1으로 놓고, 개인 의존적인 다른 계수는 없으므로 \mathbf{\phi}_{2}(x_{j}) = 0 로 놓고, 나이의 비선형 효과를 모델링하기 위해 유선형 기저함수 b_{k}에 대해 \mathbf{\phi}_{3}(x_{ij}) = b_{k}(x_{ij}) 로 놓고, 인종의 효과를 모델링하기 위해 \mathbf{\phi}_{4}(x_{j}) = [\mathbf{1}_{x_{j} = w},  \mathbf{1}_{x_{j} = a},  \mathbf{1}_{x_{j} = b},  \mathbf{1}_{x_{j} = h}] 로 놓고 선형 연결 함수를 쓰면 전체 모델은

\mathbb{E}[y_{ij} |x_{ij}, x_{j}] = \beta_{j} + \mathbf{\alpha}^{T} \mathbf{b}(x_{ij}) + \epsilon_{ij} + \sum_{e} \alpha_{e}^{\prime} \mathbf{1}_{x_{j} = e}

가 된다. 오차 \epsilon_{ij} \sim \mathcal{N}(0, \sigma_{y}^{2})라 가정하고, \mathbf{\alpha}가 모델의 나이 관련 비매개변수 부분을 모델링하고 \mathbf{\alpha}^{\prime}이 모델의 인종 관련 매개변수 부분을 모델링하고 \beta_{j}을 사람 j의 개인차라 하면 사후분포추론을 통해 p(\mathbf{\alpha},  \mathbf{\alpha}^{\prime}, \mathbf{\beta}, \mathbf{\sigma}^{2} | \mathcal{D})을 모델링할 수 있다. 모델을 피팅한 뒤에 각 인종에 대해 예측을 수행할 수 있고, p(\alpha_{g} - \alpha_{w} | \mathcal{D})을 계산해 신뢰도 시험도 할 수 있다.

9.6.2. Computational issues

일반화된 선형 혼합 효과 모델은 피팅하기 힘들다. p(y_{ij} | \mathbf{\theta})이 사전분포 p(\mathbf{\theta})와 켤레가 아닐 수 있고 모델의 미지수가 회귀계수 \mathbf{\theta}와 사전분포의 매개변수 \mathbf{\eta} 2가지이기 때문이다.

정석적 베이지안 추론 방법을 쓸 수 있고 실측 베이스법을 쓸 수도 있다. 빈도학파 통계학에서는 일반화된 추정식(GEE)을 쓸 수 있는데, 이는 통계적으로 효과적이지 않을 뿐더러 고정 효과 \mathbf{\alpha}만 추정할 수 있다.

9.7. Learning to rank

순위에 대한 학습 문제, 즉 항목 간 순위를 결정하는 함수를 학습하는 방법을 알아보자. 이는 정보 검색 등에 쓰인다. 사실 이는 일반화된 선형 모델의 예는 아니다.

쿼리 q에 대해 문서 d의 연관성에 대한 측정은 쿼리 내 단어 각각에 대한 문서의 다항 베르누이 분포를 곱해 p(q | d) = \prod_{i=1}^{n} p(q_{i} | d) 로 표현한다. 실제로는 시스템 내 모든 문서로부터 추정을 해서 분포를 균일화하는데, TF(t. d)를 문서 d에서 단어 t의 빈도, LEN(d)를 d의 단어 개수라 할 때 p(t | d) = (1 - \lambda) \frac{\mathrm{TF}(t, d)}{\mathrm{LEN}(d)} + \lambda p(t | \mathrm{background}) 로 놓을 수 있다. 이외에 다른 방법들도 있다.

9.7.1. The pointwise approach

위의 접근을 일반화해서, 각각의 문서-쿼리 쌍에 대해 특성 벡터 \mathbf{x}(q, d)을 정의하자. 예를 들면 이는 쿼리-문서 유사성 점수와 문서의 페이지 순위 점수를 포함할 수 있다. 이 때 p(y = r | \mathbf{x}(q, d)) 를 기준으로 문서들을 정렬할 수 있다. 이를 점별 접근법이라 한다. 간단해서 많이 쓰이지만 리스트 내 문서의 위치들은 감안하지 않으며 연관성에 대한 각각의 결정도 근시안적이다.

9.7.2. The pairwise approach

사람들은 두 항목간의 상대적 연관성을 절대적 연관성보다 잘 판단한다. 그러므로 p(y_{jk} | \mathbf{x}(q, d_{j}), \mathbf{x}(q, d_{k}))의 꼴을 가진 이진 분류기를 모델링할 수 있다. 하나의 방법은 p(y_{jk} = 1| \mathbf{x}_{j}, \mathbf{x}_{k}) = \mathrm{sigm}(f(\mathbf{x}_{j}) -  f(\mathbf{x}_{k}) ) 를 쓸 수 있는데, f(\mathbf{x})는 점수 함수이며 보통 f(\mathbf{x}) = \mathbf{w}^{T} \mathbf{x}의 꼴로 선형으로 놓인다. 이는 랭크넷이라 불리는 신경망의 특이 케이스이다. \mathbf{w}의 최대가능도추정은 다음의 교차 엔트로피 손실함수를 최소화시킴으로써 얻어진다.

L = \sum_{i=1}^{N} \sum_{j=1}^{m_{i}} \sum_{k=j+1}^{m_{i}} (\mathbf{1}_{y_{ijk} = 1} \log p(y_{ijk} = 1 | \mathbf{x}_{ij}, \mathbf{x}_{ik}, \mathbf{w}) +  \mathbf{1}_{y_{ijk} = 0} \log p(y_{ijk} = 0 | \mathbf{x}_{ij}, \mathbf{x}_{ik}, \mathbf{w}) )

이는 그라디언트 하강법으로 최적화할 수 있다.

9.7.3. The listwise approach

쌍별 접근법의 문제는 전체 맥락을 고려하지 않는다는 점이다. 항목의 리스트를 한번에 고려하는 접근법을 생각해보자. 항목의 인덱스에 대한 순열 \mathbf{\pi}플라켓-루스 분포 p(\mathbf{\pi} | \mathbf{s}) = \prod_{j=1}^{m} \frac{s_{j}}{\sum_{u=j} s_{u}} 로 모델링한다 (여기서 s_{j} = s(\pi^{-1}(j))은 j번째 위치에 랭크된 문서의 점수이다).

점수 함수는 역시 선형인 s(d) = f(\mathbf{x}(q, d)) = \mathbf{w}^{T} \mathbf{x} 로 놓을 수 있으며 이를 리스트넷 모델이라 한다. 목적 함수는 다음의 교차 엔트로피 손실함수이다.

-\sum_{i} \sum_{\mathbf{\pi}} p(\mathbf{\pi} | \mathbf{y}_{i}) \log p(\mathbf{\pi} | \mathbf{s}_{i})

이는 계산이 매우 힘든데, 최상위 k개의 위치에 대한 순열만 고려해서 p(\mathbf{\pi}_{1 : k} | \mathbf{s}_{1 : m}) = \prod_{j=1}^{k} \frac{s_{j}}{\sum_{u=1}^{m} s_{u}} 로 놓으면 계산량이 적어진다. 맨 위 1개만 고려한다면 O(m) 시간 내에 계산 가능하다. 문서 수가 1개라면 다항 로지스틱 회귀를 쓸 수 있다.

9.7.4. Loss functions for ranking

랭킹 시스템의 성능을 측정하는 방법은 여러 가지가 있다.

  • 평균 평균 정밀도(MAP). k-정확도를 순열의 맨 위 k개 문서 중 연관성 있는 문서의 개수 / k로 정의하고, 평균 정확도를 k-정확도의 합을 연관성 있는 문서의 총 수로 나눈 것으로 정의하고, 평균 평균 정밀도를 모든 쿼리에 대한 평균 정확도의 평균으로 정의할 수 있다.
  • 평균 역순위(MBR). 쿼리 q에 대해, 첫 번째 연관 문서의 랭크를 r(q)라 할 때 1/r(q)를 모든 쿼리에 대해 평균낸 것을 평균 역순위라 한다.
  • 표준화 할인 누적 이득(NDCG). 연관 라벨에 여러 단계가 있다고 할 때 첫 k개의 항목에 대한 할인 누적 이득r_{i}가 i번째 항목의 연관성일 때 r_{i} + \sum_{i=2}^{j} \frac{r_{i}}{\log_{2} i} 로 정의한다. 이 방식의 문제점은 반환된 목록의 길이에 의존적이란 점인데, 길이를 변화시켜 가면서 얻은 최적의 할인 누적 이득에 대해 이를 표준화할 수 있다. 이를 표준화 할인 누적 이득이라 한다.
  • 순위 상관. 순위가 매겨진 목록 \mathbf{\pi}와 연관성 결과 \mathbf{\pi}^{\ast} 간의 상관 관게를 측정할 수 있다. 하나의 방법은 켄달의 통계량 \tau(\mathbf{\pi}, \mathbf{\pi}^{\ast}) = \frac{\sum_{u < v} w_{uv}[1 + \mathrm{sgn}(\pi_{u} - \pi_{v}) \mathrm{sgn}(\pi_{u}^{\ast} - \pi_{v}^{\ast})  ]}{2 \sum_{u < v} w_{uv}} 을 이용하는 것이다. 다른 방법도 쓸 수 있다.

이 손실 함수는 서로 다른 방법들로 사용할 수 있다. 베이지안 접근법에서는 모델을 사후확률 추론으로 피팅하고, 테스트 시점에 기대사후손실을 최소화하는 방향으로 정책을 결정한다. 사후분포로부터 매개변수를 추출하고 이 매개변수들에 대한 평균 정밀도를 평균내는 것이다.

빈도학파적 접근법에서는 학습 데이터에 대한 실측 손실을 최소화한다. 이 때는 손실 함수가 미분가능하지 않으므로 그라디언트 하강법을 쓰지 않거나, 미분가능한 대안적 손실 함수를 쓴다.

또는 가중치 근사-순위 쌍별(WARP) 손실 함수도 쓸 수 있다. 이는 가능한 출력 라벨에 대한 점수 벡터에 대해 순위를 매기고 이를 다시 실수값으로 변환한 뒤 가중치합하는 것으로 이루어진다. 이는 최적화하기 어려운 함수이지만 몬테 카를로 방법으로 근사한 뒤 그라디언트 법을 사용할 수 있다.

요점 정리

  • 지수족은 최대 엔트로피 특성을 가진 유용한 분포군이다.
  • 지수족을 출력 분포로 갖는 모델을 일반화된 선형 모델이라 한다.
  • 일반화된 선형 모델의 예 중 연결 함수를 프로빗 함수로 쓰는 프로빗 회귀가 있다.
  • 일반화된 선형 모델을 쓰는 예 중 다중 작업 학습은 여러 연관된 모델을 한꺼번에 학습한다.
  • 일반화된 선형 모델끼리 혼합해서 일반화된 선형 혼합 모델을 만들 수 있다.
  • 유한 개의 항목에 대한 순위를 학습할 수 있다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중