5. Bayesian statistics

5.1. Introduction

베이지안 통계학은 우리가 미지 변수에 대해 아는 모든 것을 사후분포를 통해 기술하는 것이다.

5.2. Summarzing posterior distributions

5.2.1. MAP estimation

미지의 변량에 대해 그 사후평균, 중간값 또는 최빈값을 계산함으로써 점 근사를 할 수 있다.

5.2.1.1. No measure of uncertainty

최대사후확률근사의 단점은 불확실성에 대한 측정이 되지 않는다는 것이다.

5.2.1.2. Plugging in the MAP estimate can result in overfitting

불확실성에 대한 측정이 되지 않는다면 사후예측분포는 과적합될 수 있다.

5.2.1.3. The mode is an untypical point

게다가 사후분포의 최빈값은 편향된 분포에서는 왜곡된 값이 될 수 있다.

최빈값이 왜곡된 값일 경우.

5.2.1.4. MAP estimation is not invariant to reparametrization

최대사후확률근사의 다른 미묘한 문제는 확률분포를 다른 변수로 매개화했을 때 결과가 달라진다는 점이다.

y = f(x), p_y(y) = p_x(x) |\frac{dx}{dy}|이고 \bar{x} = \mathrm{argmax}_{x} p_x(x)일 때, 일반적으로 \bar{y} = \mathrm{argmax}_{y} p_y(y)f(\bar{x})가 되지 않는다.

최대사후확률 근사에서 재매개화했을 때 최빈값이 달라지는 예시.

반례를 들자면 p_{\mu}(\mu) = \mathbf{1}_{[0, 1]}이라 했을 때, \theta = \sqrt{\mu}라 하면 \hat{\theta}_{\mathrm{MAP}} = 1, \phi = 1 - \sqrt{1 - \mu}라 하면 \hat{\phi}_{\mathrm{MAP}} = 0 이 된다.

최대가능도근사는 이런 일이 없다. 하나의 방법은 다음의 함수를 최적화하는 것이다.

\hat{\mathbf{\theta}} = \mathrm{argmax}_{\mathbf{\theta}} p(\mathcal{D} | \mathbf{\theta}) p(\mathbf{\theta}) |\mathbf{I} (\mathbf{\theta}) |^{-\frac{1}{2}}

여기서 \mathbf{I} (\mathbf{\theta}) 는 피셔 정보량이다. 위의 식을 최적화한 값은 변수의 매개화에 상관없이 일정하다.

5.2.2. Credible intervals

점 근사에 대해 추가로 신뢰성을 측정하기 위한 방법은 신용구간으로 사후분포의 두께를 측정하는 것이다. 이는 C_{\alpha}(\mathcal{D}) = (l, u) : P(l \leq \theta \leq u | \mathcal{D}) = 1 - \alpha 로 정의된다. 이런 구간은 무수히 많은데, 왼쪽과 오른쪽의 꼬리가 (1 - \alpha) / 2의 넓이를 갖는 중심 구간을 주로 사용한다. 베이지안 신용구간과 빈도주의 신뢰구간은 혼동되고는 한다.

5.2.2.1 Highest posterior density regions

신용구간의 문제점은 중심 구간을 고를 경우 신용구간 바깥 점의 확률밀도가 안쪽의 확률밀도보다 높은 경우가 생길 수 있다는 점이다. 이를 방지하기 위해 최대사후밀도(HPD) 지역을 정의한다. 이는 1 - \alpha = \int_{\theta : p(\theta | \mathcal{D}) > p^{\ast}} p(\theta | \mathcal{D}) d \theta 가 되는 p^{\ast}을 찾은 뒤 C_{\alpha}(\mathcal{D}) = \{\theta : p(\theta | \mathcal{D}) \geq p^{\ast}\} 을 신용구간으로 잡음으로써 정의된다. 최고점이 여러 개인 분포일 경우 최대사후밀도 신용구간은 연속된 단일한 구간이 아닐 수도 있다.

중심 신용구간과 최대사후밀도 신용구간.

5.2.3. Inference for a difference in proportions

같은 형태의 분포지만 매개변수가 다를 때 사후분포를 계산해서 비교해 의사결정을 할 수 있다.

상품의 긍정/부정 판매후기 개수로부터 도출되는 양품 확률에 대한 사후분포의 비교.

5.3. Bayesian model selection

어떤 모델을 선택하는 것이 좋은가? 이것을 모델 선택 문제라 한다. 모든 모델에 대해 교차검증을 하는 것은 계산량이 많기 때문에 모델에 대해서 사후분포 p(m | \mathcal{D}) = \frac{p(\mathcal{D} | m) p(m)}{\sum_{m \in \mathcal{M}} p (m, \mathcal{D})} 를 계산한 뒤 최대값을 취할 수 있다. 이를 베이지안 모델 선택이라 한다. 모델에 대해 균일한 사전분포를 쓴다면 이것은 주변가능도 (적분가능도, 증거도 라고도 함) p(\mathcal{D} | m) = \int p(\mathcal{D} | \mathbf{\theta}) p(\mathbf{\theta} | m) d \mathbf{\theta} 를 최대화하는 모델을 택하는 것이 된다.

5.3.1. Bayesian Occam’s razor

혹자는 p(\mathcal{D} | m)을 최대화시키는 것은 모델의 인자 개수를 늘리는 쪽으로 작용할 거라 생각할 수 있다. 모델의 인자에 대해 최대가능도근사나 최대사후확률근사를 사용하면 그렇게 될지도 모르지만 모델 인자를 적분해 빼내면 인자가 많은 모델이 주변가능도가 더 커진다는 보장이 없어지므로 과적합을 방지할 수 있다. 이것을 베이지안 오컴의 면도날 효과라 한다.

베이지안 오컴의 면도날 효과를 이해하는 방법 중 하나는 조건부확률의 연쇄법칙에 의해 주변가능도를 계산할 때 다음 하나의 샘플을 예측할 때에도 지금까지 본 샘플 전부를 계산에 넣게 된다는 것이다. 모델의 복잡도가 커진다면 앞의 샘플 몇 개에 빠르게 과적합되기 때문에 이후 나타나는 샘플을 예측하는 데는 부적합해진다.

다른 방법으로는 확률질량의 보존 법칙을 생각하는 것이다. 모든 모델에 대해 합한 가능도는 1이 되어야 하는데, 복잡도가 높은 모델은 확률질량을 여러 데이터에 대해 얇게 흩뿌리므로 주어진 데이터에 대해 확률질량을 많이 부여하지 않게 되어 높은 주변가능도를 갖지 못한다.

베이지안 접근에서 증거도를 측정할 때 수치적 근사를 활용할 수 있다. 이를 실측 베이스 또는 2형 최대가능도라 한다.

N = 5 / 30개의 데이터에 대한 실측 베이스를 통한 다항식 피팅. N = 5에서는 1차식이, N = 30에서는 2차식이 최적임을 알 수 있다.

5.3.2. Computing the marginal likelihood (evidence)

증거도, 즉 주변가능도를 계산할 때에는 켤레사전분포를 사용해야 계산이 쉬워진다. p(\mathbf{\theta}) = q(\mathbf{\theta}) / Z_{0}을 사전분포, p(\mathcal{D}|\mathbf{\theta}) = q(\mathcal{D}| \mathbf{\theta}) / Z_{l} 을 가능도, p(\mathbf{\theta}|\mathcal{D}) = q(\mathbf{\theta}| \mathcal{D}) / Z_{N} 을 사후분포라 한다면 p(\mathcal{D}) = \frac{Z_{N}}{Z_{0}Z_{l}}이 되므로 사전분포/가능도/사후분포를 켤레분포로 채택한 뒤에 정규화 계수를 계산할 수만 있다면 이로부터 모델의 주변가능도를 계산하기는 쉬워진다.

5.3.2.1. Beta-binomial model

베타-이항 모델의 경우 이를 적용하면 모델의 주변가능도는 p(\mathcal{D}) = \binom{N}{N_{1}} \frac{B(a + N_{1}, b+N_{0})}{B(a,b)}가 된다.

5.3.2.2. Dirichlet-multinoulli model

디리클레-다항베르누이 분포의 경우 이를 적용하면 모델의 주변가능도는 p(\mathcal{D}) = \frac{\Gamma(\sum_{k} \alpha_{k})}{\Gamma(N + \sum_{k} \alpha_{k})}\prod_{k} \frac{\Gamma(N_{k} + \alpha_{k})}{\Gamma(\alpha_{k})} 가 된다.

5.3.2.3. Gaussian-Wishart-Gaussian model

가우시안-위샤트-가우시안 모델의 경우 이를 적용하면 모델의 주변가능도는 p(\mathcal{D}) = \frac{1}{\pi^{\frac{ND}{2}}} (\frac{\kappa_{0}}{\kappa_{N}})^{\frac{D}{2}} \frac{|\mathbf{S}_{0}|^{\frac{\nu_{0}}{2}}}{|\mathbf{S}_{N}|^{\frac{\nu_{N}}{2}}} \prod_{i=1}^{D} \frac{ \Gamma(\frac{\nu_{N} + 1 - i}{2}) }{\Gamma(\frac{\nu_{0} + 1 - i}{2})}

가 된다.

5.3.2.4. BIC approximation to log marginal likelihood

주변가능도를 직접 계산하는 것은 매우 어렵다. 이를 근사하기 위해서 베이지안 정보 기준량(BIC)를 사용한다. 이는 다음과 같이 정의된다:

\mathrm{BIC} = \log p(\mathcal{D} | \hat{\mathbf{\theta}}) - \frac{\mathrm{DOF}(\hat{\mathbf{\theta}})}{2} \log N

이 때 \mathrm{DOF}(\hat{\mathbf{\theta}})은 모델의 자유도이다. 이는 로그가능도에 자유도만큼의 패널티 항이 붙은 것이기 때문에 징벌로그가능도로 불린다.

선형 회귀의 예에서는 BIC는 -\frac{N}{2} \log(2 \pi \hat{\sigma}^{2}) - \frac{D}{2} \log N이 된다.

BIC 방법은 최소 표현 길이(MDL) 이론과 관계가 있다. 이는 얼마나 모델이 데이터에 잘 피팅되는지를 나타내는 수치에서 모델의 복잡도를 뺌으로써 얻어지는 값이라는 의미에서 비슷하다.

빈도주의적 접근에서는 BIC 방법에 대한 대안으로 아카이케 정보 기준량을 쓴다. 이는 다음과 같이 정의된다: \mathrm{AIC} = \log p(\mathcal{D} | \hat{\mathbf{\theta}}_{\mathrm{MLE}}) - \mathrm{DOF}(m)

이는 주변가능도에 대한 근사가 아니다.

5.3.2.5. Effect of the prior

사전분포의 세기를 모를 때, 베이지안적 접근 방법은 사전분포에 사전분포를 넣는 것이다. 즉 p(\mathcal{D} | m) = \int \int p(\mathcal{D} | \mathbf{w}) p(\mathbf{w} | \alpha, m) p(\alpha | m) d \mathbf{w} d \alpha 를 계산하는 것이 된다. 물론 이는 사전분포의 사전분포에 대한 초매개변수를 또 세팅해야 하는데, 베이지안 계층에서 위로 도달할 수록 해당 모델의 특성화에 대한 결과의 반응은 덜 민감해지므로 사전분포의 사전분포는 비정보형으로 택해도 크게 상관없다.

사전분포의 매개변수에 대해 베이지안식으로 사전분포를 또 만들고 적분해 빼내는 것보다는 아예 직접 해당 매개변수를 최적화시킬 수도 있다. 이를 실측 베이스 방법이라 한다.

5.3.3. Bayes factors

모델에 대한 사전분포가 균등하다고 할 때, 귀무가설 M_0대립가설 M_{1}에 대한 베이즈 인자는 두 모델의 주변가능도비로 정의된다.

\mathrm{BF}_{1, 0} = \frac{p(\mathcal{D} | M_{1})}{ p(\mathcal{D} | M_{0}) } = \frac{p(M_{1}|\mathcal{D}) p(M_{0})}{ p(M_{0}|\mathcal{D} ) p(M_{1})}

이 비율이 1보다 많이 크면 대립가설을 택하고, 1보다 많이 작으면 귀무가설을 택하는 의사결정 방식이다.

5.3.3.1. Example: Testing if a coin is fair

동전 던지기에 대해 귀무가설로는 동전이 편향되지 않았음을 선정하고, 대립가설로는 동전이 임의의 확률을 가짐을 선정하자. 이 경우 베이즈 인자를 구해보면 5회 던졌을 때 2-3회 앞면이 나오면 귀무가설 쪽으로 판단이 쏠림을 알 수 있지만 그 이외의 경우에는 대립가설로 쏠림을 알 수 있다.

동전 던지기에 대한 대립가설의 주변가능도 및 BIC 근사.

5.3.4. Jeffreys-Lindley paradox

귀무가설과 대립가설의 사전분포로 부정형 사전분포를 사용할 때 해당 사전분포의 계수가 다르다면 그 계수에 따라 사후분포의 값을 임의로 조정할 수 있게 되는 문제가 생긴다. 이를 제프리-린들리 패러독스라 한다. 이 때문에 모델 선택 의사결정에서 정상형 사전분포를 선택하는 것은 중요하다.

5.4. Priors

베이지안 통계학에서 가장 논란이 되는 부분은 사전분포일 것이다. 베이지안 통계학자들은 모든 것은 흰 석판(tabula rasa) 상태이기 때문에 사전분포에 대한 의존은 불가피하다 주장한다.

5.4.1. Uninformative priors

비정보형(무정보형) 사전분포는 모델의 매개변수에 대해 특별한 직관이 없을 때 쓰인다. 그러나 어떤 것이 비정보형 사전분포인지를 결정하는 것은 쉽지 않다. 베르누이 분포에 대해서도 비정보형 분포는 \mathrm{Beta}(1, 1)도 아니고, 할단 분포\mathrm{Beta}(0, 0) 도 아닌 \mathrm{Beta}(\frac{1}{2}, \frac{1}{2}) 이 된다. 어떤 것이 적합한 분포인지를 결정하기 위해서는 민감도 분석, 즉 모델 가정에 의해 예측값이 얼마나 크게 바뀌는지를 분석하는 것이 필요하다.

5.4.2. Jeffreys priors

제프리 사전분포는 비정보 사전분포를 만드는 테크닉이다. 이는 p(\phi)가 비정보형이면 그를 어떻게 재매개화하더라도 비정보형이어야 한다는 아이디어로부터 출발한다. 피셔 정보량 I(\phi) = -\mathbb{E}[(\frac{d \log p(X | \phi)}{d \phi})^{2}] 를 정의했을 때 p_{\phi}(\phi) \propto I(\phi)^{\frac{1}{2}} 로 잡으면 재매개화 방법에 상관없이 같은 값을 갖는다. 이것이 제프리 사전분포이다.

5.4.2.1. Example: Jeffreys prior for the Bernoulli and multinoulli

베르누이 분포에 대해 점수 함수 s(\theta) = \frac{d}{d \theta} \log p(X | \theta), 관측 정보량 J(\theta) = -\frac{d^{2}}{d \theta^{2}} \log p(X | \theta)을 정의했을 때 이를 이용해서 제프리 사전분포를 계산하면 p(\theta) \propto \mathrm{Beta}(\frac{1}{2}, \frac{1}{2}) 가 된다.

다항베르누이 분포에 대해서는 p(\mathrm{\theta}) \propto \mathrm{Dir}(\frac{1}{2}, \cdots, \frac{1}{2})가 된다.

5.4.2.2. Example: Jeffreys prior for location and scale parameters

가우시안 분포의 평균에 대한 제프리 사전분포는 p(\mu) \propto 1이 된다. 이는 이동불변 사전분포의 예이다. 이는 부정형 사전분포가 됨을 유의하라.

가우시안 분포의 분산에 대한 제프리 사전분포는 p(\sigma^{2}) \propto \frac{1}{\sigma^{2}}가 된다. 이는 축척불변 사전분포의 예이다.

5.4.3. Robust priors

스튜던트 T 분포 등의 양끝이 두꺼운 강건형 사전분포를 사용해 사전분포가 평균에 치우쳐져 있지 않도록 할 수 있다.

5.4.4. Mixtures of conjugate priors

켤레사전분포의 선형혼합은 켤레분포라는 성질을 이용해 여러 켤레사전분포를 선형결합해 사용할 수 있다.

5.4.4.1. Example

혼합 사전분포 p(\theta) = 0.5 \mathrm{Beta}(\theta|20, 20) + 0.5 \mathrm{Beta}(\theta | 10, 10)을 베르누이 분포에 사용할 때 앞면이 20, 뒷면이 10개 나온다면 사후분포도 비슷한 형태인 p(\theta | \mathcal{D}) = 0.346 \mathrm{Beta}(\theta|40, 30) + 0.654 \mathrm{Beta}(\theta | 50, 20) 이 된다.

베타 분포의 혼합. 사전분포/사후분포.

5.4.4.2 Application: Finding conserved regions in DNA and protein sequences

유전자의 암호 영역을 찾고자 한다면 염기 서열 내에서 같은 문자가 반복해서 나타나는 곳을 찾으면 된다. 이 때 모델 매개변수에 대한 사전분포는 A, C, G, T 중 하나의 문자로만 이루어진 열이 등장한 확률 각각을 모델링하는 디리클레 사전분포의 선형결합을 사용한다.

5.5. Hierarchical Bayes

사후분포 p(\mathbf{\theta} | \mathcal{D})를 계산하는 핵심은 사전분포 p(\mathbf{\theta} | \mathbf{\eta})의 계산이다. 여기서 \mathbf{\eta}는 초매개변수인데, 이를 계산하기 위한 베이지안식 접근은 여기에다가도 사전분포를 도입하는 것이다. 이를 계층 베이스 모델(다층 모델)이라 한다.

5.5.1. Example: modeling related cancer rates

여러 도시에서 암 유병율을 예측한다고 하자. 모든 도시를 각각 다른 유병율로 모델링한다면 각 도시별 표본수가 적어서 모델링이 잘 되지 않을 것이다. 모든 도시의 유병율이 같다는 가정 (매개변수 동기화)을 하면 계산이 쉬워지지만, 이는 너무 강한 가정이므로, 이에 대한 대안으로 모든 도시의 유병율이 같은 분포를 따른다고 가정할 수는 있다. 이렇게 되면 총 결합분포는 p(\mathcal{D}, \mathbf{\theta}, \mathbf{\eta} | \mathbf{N}) = p(\mathbf{\eta}) \prod_{i=1}^{N} \mathrm{Bin} (x_{i} | N_{i}, \mathbf{\theta}_{i}) \mathrm{Beta}(\theta_{i} | \mathbf{\eta}) 가 된다.

여기서 유병율이 따르는 분포의 매개변수들인 \mathbf{\eta}를 모델링하는 것이 중요한데, 그냥 상수로 두면 모든 도시의 유병율이 조건부 독립이 되므로 별로 유용하지 않다. 그래서 그 대신에 데이터가 적은 도시들이 데이터가 많은 도시들로부터 통계적 세기를 빌려오는 접근을 취한다.

여러 도시의 암 유병율 예측. 도시별 암 환자 수 / 인구 수 / 유병율의 최대가능도근사 / 사후평균 / 신용구간.

이 예제에서는 각각의 도시마다 하나의 매개변수를 가지는데, 이 매개변수를 공분산의 함수로 모델링하면, 여러 개의 도시에 대한 모델링을 서로 상관 관계가 존재하는 로지스틱 회귀 문제로 바꿀 수 있다. 이를 다중 태스크 학습이라고 한다.

5.6. Empirical Bayes

계층 베이스 모델에서는 잠재 변수에 대한 사후분포를 다음과 같이 계산해야 한다.

p(\mathbf{\eta}, \mathbf{\theta} | \mathcal{D}) \propto p(\mathcal{D} | \mathbf{\theta}) p(\mathbf{\theta} | \mathbf{\eta}) p(\mathbf{\eta})

\mathbf{\theta}를 적분해 빼내면 p(\mathbf{\eta} | \mathcal{D}를 계산하는 것으로 충분해진다. 이 계산을 더 쉽게 하기 위해서, 초매개변수에 대한 사후분포를 \hat{\mathbf{\eta}} = \mathrm{argmax} p(\mathbf{\eta} | \mathcal{D})에 대한 점 근사 p(\mathbf{\eta} | \mathcal{D}) \simeq \delta_{\hat{\mathbf{\eta}}}(\mathbf{\eta})로 바꿀 수 있다. \mathbf{\eta}에 대한 사전분포는 균등분포로 해도 크게 상관은 없으므로, \hat{\mathbf{\eta}} = \mathrm{argmax} p(\mathcal{D} | \mathbf{\eta}) = \mathrm{argmax} \int (p(\mathcal{D} | \mathbf{\theta}) p(\mathbf{\theta} | \mathbf{\eta}) d \mathbf{\theta}) 로 근사할 수 있다. 이는 실측 베이스(EB), 2형 최대가능도, 증거도 과정 등으로 불린다.

5.6.1. Example: beta-binomial model

베타-이항 모델에서 주변가능도를 계산하면 p(\mathcal{D} | a, b) = \prod_{i} \frac{B(a + x_{i}, b+ N_{i} - x_{i})}{B(a, b)} 가 된다. 이를 최대화시키는 a, b를 찾은 뒤에는 이를 대입해 사후분포 p(\theta_{i} | \hat{a}, \hat{b}, \mathcal{D})를 계산하면 된다.

5.6.2. Example: Gaussian-Gaussian model

위의 암 유병율과 비슷한 예를 다뤄 보는데, 이번에는 데이터가 실수값을 가진 시험 성적으로부터 각 학교의 평균 성적을 예측하는 것이다. 이 때는 가우시안 가능도와 가우시안 사전분포를 사용한다. 모든 학교의 평균 성적이 공통된 분포 \mathcal{N}(\mu, \tau^{2})를 따른다고 가정하면 결합분포는 다음과 같다.

p(\mathbf{\theta} | \mathcal{D} | \mathbf{\eta}, \sigma^{2}) = \prod_{i=1}^{D} \mathcal{N} (\theta_{j} | \mu, \tau^{2}) \prod_{i=1}^{N_{j}} \mathcal{N}(x_{ij} | \theta_{j}, \sigma^{2})

이 때 초매개변수 \mathbf{\eta} = (\mu, \tau)를 근사했다면, 평균 x_{ij}와 분산 \sigma^{2}의 가우시안 측정 N_{j}번은 평균 \bar{x}_{j}와 분산 \frac{\sigma^{2}}{N_{j}}의 가우시안 측정 1번과 같다는 사실을 이용하면

p(\mathbf{\theta} | \mathcal{D} | \hat{\mathbf{\eta}}, \sigma^{2}) = \prod_{i=1}^{D} \mathcal{N} (\theta_{j} | \hat{\mu}, \hat{\tau}^{2}) \mathcal{N}(\bar{x}_{j} | \theta_{j}, \sigma_{j}^{2}) 가 된다.

이로부터 사후분포를 구하면 수축도 \hat{B}_{j} = \frac{\sigma_{j}^{2}}{\sigma_{j}^{2} + \hat{\tau}^{2}} 로 놓을 때 p(\mathbf{\theta}_{j} | \mathcal{D}, \hat{\mu}, \hat{\tau}^{2}) = \mathcal{N} (\theta_{j} | \hat{B}_{j} \hat{\mu} + (1 - \hat{B}_{j}) \bar{x}_{j}, (1 - \hat{B}_{j}) \sigma_{j}^{2} )이 된다. 이 때 수축도는 해당 학교의 시험 성적의 사후분포가 얼마나 전체 평균 쪽으로 쏠리는지를 나타낸다. 표본수가 많은 학교라면 분산이 적어질 것이므로 수축도가 작아져 해당 학교의 평균 성적 근사가 전체 평균 쪽으로 잘 쏠리지 않게 될 것이다. 표본수가 적다면 수축도가 커져 전체 평균 쪽에 더 가까워질 것이다. 학교들의 성적 분포가 분산을 공유한다면 사후평균은 \hat{\theta}_{j} = \bar{x} + (1 - \hat{B}) (\hat{x}_{j} - \hat{x}) 이 된다.

5.6.2.1. Example: predicting baseball scores

T번의 야구 경기에서 D명의 선수의 타율을 예측하는 예를 보자. 위와 비슷한 접근을 해보면 평균은 \mathbb{E}[x_{j}] = \theta_{j}이지만 분산은 \mathrm{var}[x_{j}] = \frac{T \theta_{j} (1 - \theta_{j})}{T^{2}}가 되어 상수가 아니게 된다. 이를 해결하기 위해 x_{j}분산 안정화 변환 y_{j} = \sqrt{T} \arcsin (2 x_{j} - 1)을 적용하면 y_{j} \sim \mathcal{N}(\sqrt{T} \arcsin (2 \theta_{j} - 1), 1)가 된다. 여기서 \mu_{j} = \sqrt{T} \arcsin (2 \theta_{j} - 1)를 근사하고 이로부터 역변환하면 \hat{\theta}_{j} = 0.5 \sin(\frac{\hat{\mu}_{j}}{\sqrt{T}}) 가 된다.

야구 선수의 타율 근사. 개별 선수에 대한 최대가능도근사에 비해 전체 평균에 대한 수축 근사를 수행했을 시 평균제곱오차가 1/3에 가깝게 떨어짐을 알 수 있다.

5.6.2.2. Estimating the hyperparameters

초매개변수 \mathbf{\eta}는 어떻게 근사해야 하나? 모든 분산이 같다고 가정하면 (다른 경우엔 닫힌 형태로 표현이 불가능하다), p(\bar{x}_{j} | \mu, \tau^{2}, \sigma^{2}) = \mathcal{N}(\bar{x}_{j} | \mu, \tau^{2} + \sigma^{2})가 되며, 주변가능도는 p(\mathcal{D} | \mu, \tau^{2}, \sigma^{2}) = \prod_{i=1}^{D} \mathcal{N}(\bar{x}_{j} | \mu, \tau^{2} + \sigma^{2})가 되므로 최대가능도근사를 이용해 초매개변수를 근사할 수 있다. \hat{\mu} = \bar{x}, \hat{\tau}^{2} = \frac{1}{D} \sum_{j=1}^{D} (\bar{x}_{j} - \bar{x})^{2} - \sigma^{2}가 된다. \tau^{2}는 항상 양수이므로, \hat{\tau}^{2} = \max (0,  \frac{1}{D} \sum_{j=1}^{D} (\bar{x}_{j} - \bar{x})^{2} - \sigma^{2})를 사용한다.

5.7. Bayesian decision theory

우리가 세상에 가진 선험적 믿음에 따른 의사결정을 하고 싶다면? 상태 변수 y \in \mathcal{Y}와 그에 대한 관찰 \mathbf{x} \in \mathcal{X}를 둔다. 여기에 행위 공간 \mathcal{A}로부터 행위 a를 선택하고 이로부터 우리의 행위가 숨겨진 상태에 얼마나 부합하는지를 측정하는 손실 함수 L(y, a)를 정의한다. 여기서의 목적은 임의의 입력에 대해 최적의 행위 (즉, 손실 함수를 최소화하는 행위)를 결정하는 결정론 또는 정책 \delta (\mathbf{x}) = \mathrm{argmin}_{a \in \mathcal{A}} \mathbb{E}[L(y, a)]를 찾는 것이다. 경제학에서는 손실 함수에 음수를 취해 효용 함수로 정의하기도 한다. 이를 합리적 행위를 찾기 위한 최대 기대 효용 원리라고 한다.

베이지안 결정법에서는 사후기대손실 \rho(a | \mathbf{x}) = \sum_{y} L(y, a) p(y | \mathbf{x})를 최소화하는 베이즈 추정자 \delta(\mathbf{x}) = \mathrm{argmin}_{a \in \mathbf{A}} \rho(\mathbf{a} | \mathbf{x})를 찾는다.

5.7.1. Bayes estimators for common loss functions

5.7.1.1. MAP estimate minimizes 0-1 loss

0-1 손실 L(y, a) = \mathbf{1}_{y \neq a}는 분류 문제에 자주 쓰이는데, 이를 최소화하는 행위는 최대사후확률근사이다.

5.7.1.2. Reject option

p(y | \mathbf{x})가 불확실한 분류 문제들의 경우 분류를 거부하는 행동을 선택할 수 있다. 이런 방식은 의료나 금융처럼 위험을 회피해야 하는 분야에 유용하다. 기술적으로는 클래스 C + 1을 둔 뒤 손실 함수를 L(y=j, a = i) = 0 if i = j and i, j \in \{1, \cdots, C\}, 행동 거부 손실 \lambda_{r} if i = C+1, 대입 에러 손실 \lambda_{s} if otherwise 로 구현한다.

5.7.1.3. Posterior mean minimizes l_{2} (quadratic) loss

분류 문제가 아닌 연속된 값을 가지는 인자에 대해서는 제곱 오차, l_{2} 오차, 이차 오차 L(y, a) = (y-a)^{2}가 자주 쓰인다. 이를 최소화하는 근사는 사후평균이다. 이를 최소평균제곱오차(MMSE) 근사라 한다.

5.7.1.4. Posterior median minimizes l_{1} (absolute) loss

l_{2} 오차는 이상치에 취약하기 때문에 l_{1} 오차 L(y, a) = |y - a|를 사용하기도 한다. 이를 최소화하는 근사는 사후중간값이다.

l_0.2, l_1, l_2 손실 함수.

5.7.1.5 Supervised learning

지도 학습에 대한 예측 함수 \delta에 대해, 예측 행위에 대한 비용 함수 l(y, y')를 통해 손실 함수를 다음과 같이 정의할 수 있다.

L(\mathbf{\theta}, \delta) = \mathbb{E}_{(\mathbf{x}, y) \sim p(\mathbf{x}, y | \mathbf{\theta})} [l(y, \delta(\mathbf{x}))] = \sum_{\mathbf{x}} \sum_{y} L(y, \delta(\mathbf{x}))p(\mathbf{x}, y | \mathbf{\theta})

이를 일반화 오차라 한다. 이 경우 목적은 사후예측손실 \rho(\delta | \mathcal{D}) = \int p(\mathbf{\theta}|\mathcal{D}) L(\mathbf{\theta}, \delta) d \mathbf{\theta}을 최소화하는 것이 된다.

5.7.2. The false positive vs false negative tradeoff

이진 분류 문제에서는 두 종류의 오차가 있다: 참값 0을 1로 분류하는 거짓 양성 (거짓 알람), 참값 1을 0으로 분류하는 거짓 음성 (미감지). 이는 트레이드오프 관계에 있으며, 최적의 행위는 둘 중 어느 쪽에 가중치를 더 부여하느냐에 따라 결정된다.

5.7.2.1. ROC curves and all that

참 양성, 거짓 양성, 참 음성, 거짓 음성을 도식화한 테이블을 혼동 행렬이라 한다. 이 테이블에서, 참 양성율(민감도, 재현, 적중률)과 거짓 음성율(거짓 알람율, 1형 오차율)을 계산할 수 있지만, 이 두 변수간에는 트레이드오프가 있기 때문에 각각을 계산하는 것보다 참 양성율 vs 거짓 음성율을 기준치에 대한 함수로 그려보는 것이 가장 낫다. 이를 수용자 작용 특성(ROC) 곡선이라 한다. 이 곡선 아래 넓이(AUC) 를 측정하는 것이 분류기의 성능을 측정하는 지표가 된다. 또는 동일 오차율(EER)을 계산하는 것도 가능하다.

5.7.2.2. Precision recall curves

참 양성율/양성 진단수로 정의되는 정밀도, 참 양성율/양성 표본수로 정의되는 재현도간 트레이드오프도 정밀도-재현도 곡선을 통해 분석할 수 있다. 이 곡선상에서 모든 재현도에 대한 정밀도를 평균낸 것을 평균 정밀도라고 한다.

두 모델에 대한 ROC 곡선과 정밀도-재현도 곡선 비교. 모델 A가 B에 대해 둘 모두에서 우월함을 보인다.

5.7.2.3. F-scores

정밀도와 재현도는 하나의 통계량인 F 점수(F1 점수) F = \frac{2PR}{P+R} 로 묶어서 분석될 수 있다. F 점수를 정밀도와 재현도의 산술평균이 아닌 조화평균으로 정의하는 이유는 산술평균으로 정의할 경우 한 쪽으로 치우친 경우에 대해 유행도에 의한 트레이드오프를 제대로 측정하지 못하기 때문이다.

다중 클래스 분류로 F1 점수를 일반화하는 방식은 크게 두 가지인데, 첫째로 거시평균 F1 \sum_{c=1}^{C} \frac{F_{1}(c)}{C}가 있다. 여기서 F_{1}(c)는 클래스 c vs 다른 모든 클래스를 이진 분류로 보았을 때의 F1 점수이다. 미시평균 F1 스코어는 모든 클래스에 대해 횟수를 묶어서 F1 점수를 계산한 것이다.

5.7.2.4. False discovery rates

측정기의 처리량이 많은 경우 다중 가설 시험을 해야 할 수 있다. 거짓 양성 기대값을 최소화시키는 베이지안적 접근법은 \mathrm{FD}(\tau, \mathcal{D}) = \sum_{i} (1 - p_{i}) \mathbf{1}_{p_{i} > \tau} 를 최소화시키는 것이 된다. 여기서 사후기대오감지율\mathrm{FDR}(\tau, \mathcal{D}) = \mathrm{FD}(\tau, \mathcal{D}) / N(\tau, \mathcal{D})가 된다. 여기서 N(\tau,\mathcal{D})는 양성으로 판정된 항목의 수이다. 이를 직접 사후확률 접근법이라 한다.

5.7.3. Other topics

5.7.3.1. Contextual bandits

외팔의 도적(슬롯 머신)이 K개 있는 여러 팔의 도적 문제는 베이지안 결정론으로 모델링할 수 있다. 기틴스 지표를 사용해서, 어느 슬롯 머신을 선택할지 결정하기 전까지 몇 개의 슬롯머신을 둘러볼지를 결정하는 문제인 탐사-활용 트레이드오프를 최적화할 수 있다. 각각 슬롯머신에 대해 특성이 엮여 있는 맥락 도적 문제를 풀때는 사후분포에 대해 최적의 행위를 결정하게 된다.

하나의 방법은 UCB (신뢰 상한)를 이용해 푸는 것이다. 이는 보상 r_{k}의 평균, 분산을 \mu_{k}, \sigma_{k}^{2}라 할 때 평균과 표준편차의 가중치 합을 최대화하는 슬롯머신 k^{\ast} =  \mathrm{argmax}_{k} (\mu_{k} + \lambda \sigma_{k})을 선택하는 것을 말한다.

또 다른 방법은 톰슨 샘플링이다. 이것은 각각의 단계마다 보상치의 기대값을 최대화하는 행위를 선택하는 것이다.

p_{k} = \int \mathbf{1}_{\mathbb{E}[r | a, \mathbf{x}, \mathbf{\theta}] = \max_{a'} \mathbb{E}[r | a', \mathbf{x}, \mathbf{\theta}]} p(\mathbf{\theta} | \mathcal{D}) d \mathcal{D}

이를 근사하기 위한 휴리스틱으로는 사후분포에서 표본 하나를 \mathbf{\theta}^{t} \sim p(\mathbf{\theta}|\mathcal{D})와 같이 샘플링한 뒤에 k^{\ast} = \mathrm{argmax}_{k} \mathbb{E}[r | \mathbf{x}, k, \mathbf{\theta}^{t}]를 택하는 것이다. 간단하지만 성능이 잘 나오는 알고리즘이다.

5.7.3.2. Utility theory

각각의 행동을 결정하기 위해 손실 행렬을 사용할 수 있다. 손실 행렬을 구성하는 숫자들은 개인적 선호도로부터 결정된다.

5.7.3.3. Sequential decision theory

지금까지는 단일 결정 문제만을 다뤘으나, 연속 결정 문제를 풀어야 할 때도 있다.

요점 정리

  • 베이지안 통계학이란?
  • 사후 분포의 최대사후확률근사와 신용구간
  • 베이지안 모델 선택 : 베이즈 인자
  • 사전분포를 선택하는 여러 방법
  • 계층 베이즈 : 사전분포의 매개변수를 알 수 없을 때는 그 매개변수에 사전분포를 도입하기도 한다.
  • 실측 베이즈 : 계층 베이즈에서 초매개변수를 근사하는 방법. 데이터의 가능도를 최대화시키는 점 근사가 된다.
  • 베이지안 결정론 : 행위에 따른 보상/손실 함수를 정의할 때 정책을 결정하기 위한 베이지안 방법. 사후 기대 손실을 계산한 뒤 이를 최소화시킨다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중