6. Frequentist statistics

6.1. Introduction

매개변수들을 확률변수로 보지 않고 사전분포나 베이즈 정리를 사용하지 않는 통계학파를 빈도주의 통계학파, 고전 통계학파, 정통 통계학파라 한다. 이는 표본 분포에 기반하는 이론이다. 이는 미지의 참 분포를 가정하고 거기서 추출된 여러 개의 데이터를 통해 추정자를 적용시킨 분포이다. 이와 반대로 베이지안 접근에서는 실제로 관측된 데이터들에 대해서만 조건을 걸 뿐이고, 반복 시행에 대한 개념은 없으며, 이것은 한 번 시행되고 끝난 사건에 대한 확률을 계산할 수 있게 한다.

6.2. Sampling distribution of an estimator

빈도주의 통계학파에서 매개변수 근사 \hat{\mathbf{\theta}}추정자 \delta를 데이터 \mathcal{D}에 적용해 계산된다. 이 때 베이지안 접근과는 정반대로 매개변수는 고정된 값으로, 데이터는 무작위인 것으로 인식되며, 매개변수 근사의 불확실성은 추정자의 표본 분포를 통해 계산된다. 표본 분포는 참 분포에서 데이터를 샘플링했을 때 각각의 데이터에 추정자를 적용했을 때 유도되는 분포에서 데이터의 수를 무한대로 보냈을 때의 수렴값이다.

6.2.1 Bootstrap

붓스트랩은 표본분포를 근사하는 몬테 카를로 방법이다. 이는 각각의 표본에 추정자를 적용한 뒤 나오는 결과 표본의 실측 분포를 사용한다. 이 때 매개변수는 미지수이므로, 데이터에 추정자를 적용한 뒤 표본들을 생성하는 매개변수 붓스트랩이 쓰이며, 그 반대인 비매개변수 붓스트랩은 원본 데이터에서 표본을 추출한 뒤 추정자를 적용하는 것이다.

Ber(0.7)에 붓스트랩(왼쪽) vs 베이즈(오른쪽)을 적용한 결과. 붓스트랩법으로는 최대가능도근사의 표본분포를 표현한 것이며 베이즈법으로는 균등사전분포를 적용한 사후분포를 표현한 것이다.

붓스트랩을 적용한 매개변수 근사와 사후분포에서 추출된 매개변수값들에는 어떤 관계가 있을까? 개념적으로는 다르지만, 사전분포의 세기가 강하지 않다면 사실 이 둘은 비슷한 관계를 보인다. 때문에 붓스트랩을 사후분포의 하위호환이라고 볼 수도 있지만, 사실 붓스트랩은 모델을 S번 피팅해야 하기 때문에 사후분포법보다 느리다.

6.2.2. Large sample theory for the MLE

일부 경우에 대해서는 추정자의 표본분포를 직접 계산할 수 있다. 어떠한 조건들을 만족할 경우 표본수가 커진다면 최대가능도근사의 표본분포는 가우시안으로 수렴한다. 이 조건을 대충 서술하자면, 모델의 매개변수 각각의 변화가 무한대의 데이터를 커버할 수 있고, 이를 통해 모델을 변별 가능할 때이다. 이러한 조건들을 만족하는 모델이 많지는 않지만, 우선은 이 조건들이 성립한다고 가정해보기로 한다. 이 때 해당하는 가우시안의 평균은 당연히 최대가능도근사이다. 하지만 분산은 어떻게 되는가?

점수 함수를 로그 가능도의 그라디언트 \mathbf{s}(\hat{\mathbf{\theta}}) = \Delta \log p(\mathcal{D} | \mathbf{\theta})|_{\hat{\mathbf{\theta}}} 로 정의하고, 관찰정보량 행렬을 음의 로그 가능도의 헤시안 \mathbf{J}(\hat{\mathbf{\theta}}(\mathcal{D}) = -\Delta \mathbf{s}(\hat{\mathbf{\theta}}) = -\Delta_{\mathbf{\theta}}^{2}  \log p(\mathcal{D} | \mathbf{\theta})|_{\hat{\mathbf{\theta}}} 로 정의하자. 피셔 정보량 행렬을 관찰 정보량 행렬의 기대값 \mathbf{I}_{N} (\hat{\mathbf{\theta}} | \mathbf{\theta}^{\ast}) = \mathbb{E}_{ \mathbf{\theta}^{\ast}}  \mathbf{J}(\hat{\mathbf{\theta}}(\mathcal{D})) = \frac{1}{N} \sum_{i=1}^{N}  \mathbf{J}(\hat{\mathbf{\theta}}(\mathbf{x}_{i})) p(\mathbf{x}_{i} | \mathbf{\theta}^{\ast})  으로 정의하면, 표본의 크기가 커질수록 최대가능도근사 \hat{\mathbf{\theta}}\mathcal{N}(\mathbf{\theta}^{\ast},  \mathbf{I}_{N} (\hat{\mathbf{\theta}} | \mathbf{\theta}^{\ast})^{-1})로 수렴하게 된다. 즉 최대가능도근사의 표본분산은 점근적으로 가우시안이 된다.

표본의 크기를 무한대로 접근시켰을 때 분포의 수렴값 말고 최대가능도근사 그 자체의 분산을 알 수는 없을까? 빈도주의 접근에서 매개변수의 참값은 알 수 없는 값이기 때문에 표본분포의 분산을 직접 구할 수는 없고, 그 대신에 매개변수의 참값을 매개변수의 최대가능도근사로 대체해 근사한다. 이 때 매개변수 \hat{\theta}_{k}표준 오차\hat{\mathrm{se}}_{k} =  \mathbf{I}_{N} (\hat{\mathbf{\theta}} | \mathbf{\theta}^{\ast})_{k, k}^{-1/2} 가 된다.

6.3. Frequentist decision theory

빈도주의 결정론에서도 손실함수와 가능도의 개념은 존재하지만 사전분포라는 개념이 없기 때문에 사후분포나 사후기대손실도 없다. 따라서 최적의 추정자를 도출할 수 있는 정석적인 방법은 없다. 그 대신에, 빈도주의적 접근법에서는 추정자를 아무거나 선택한 뒤 그 추정자의 위험도를 다음과 같이 산출한다.

R(\theta^{\ast}, \delta) = \mathbb{E}_{p(\tilde{\mathcal{D}} | \theta^{\ast})}[L(\theta^{\ast}, \delta(\tilde{\mathcal{D}}))] = \int  L(\theta^{\ast}, \delta(\tilde{\mathcal{D}}))  p(\tilde{\mathcal{D}} | \theta^{\ast}) d \tilde{\mathcal{D}}

여기서 \tilde{\mathcal{D}}는 파라미터의 참값을 통해 정의된 자연적 분포에서 샘플링 된 데이터인데, 위의 식의 의미를 요약하면 “추정자의 위험도 = 손실함수를 추정자의 표본분포에 대해 굴린 기대값”이 된다.

이를 베이지안 사후기대손실과 비교해 보자.

\rho(a | \mathcal{D}, \pi) = \mathbb{E}_{p(\theta | \mathcal{D}, \pi)} [L(\theta, a)] = \int_{\Theta} L(\theta, \mathbf{a}) p(\theta | \mathcal{D}, \pi) d \theta

베이지안 접근은 데이터 \mathcal{D} (아는 값) 에 대한 조건을 건 뒤 모델 매개변수 \theta (모르는 값)의 변화에 대한 기대값을 매긴다. 빈도주의 접근은 파라미터 참값 \theta^{\ast} (모르는 값)에 대한 조건을 건 뒤 자연 데이터 \tilde{\mathcal{D}} (가상의 값, 따라서 관측된 데이터는 고려하지 않음)의 변화에 대한 기대값을 매긴다. 이 접근법은 일단 파라미터의 참값을 알 수 없기 때문에 계산하는 것이 불가능하고, 추정자끼리 위험도를 계산해 비교한다는 방법은 애초에 성립하지 않는다.

6.3.1. Bayes risk

모델 파라미터의 참값을 알지 못하는데 위험도를 어떻게 계산해야 하나? 하나의 방법은 베이지안 사전분포를 모델 파라미터에 도입한 뒤 추정자에 대한 다음의 베이즈 위험도 (또는 적분위험도)를 계산하는 것이다.

R_{B}(\delta) = \mathbb{E}_{p(\mathbf{\theta}^{\ast})}[R(\mathbf{\theta}^{\ast}, \delta)] = \int  R(\mathbf{\theta}^{\ast}, \delta)  p(\mathbf{\theta}^{\ast}) d \mathbf{\theta}^{\ast}

베이즈 추정자 또는 베이즈 결정법은 이 기대위험도를 최소화시키는 추정자 \delta_{B} = \mathrm{argmin}_{\delta} R_{B}(\delta)를 택하는 것이다. 이 때 적분위험도는 전사후분포 위험도이다. 데이터를 관측하기 전에 측정하는 값이기 때문이다.

Theorem 6.3.1. 베이즈 추정자는 모든 데이터에 대해 사후예측손실을 최소화시키는 추정자이다.

즉, 모든 케이스 각각에 대한 최적의 행위는 평균적으로도 최적의 행위가 된다.

Theorem 6.3.2. 모든 허용가능한 결정론은, 어떤 사전분포에 대한 베이즈 추정자이다.

즉 빈도주의 위험도를 최소화시키는 최적의 방법은 베이지안적 접근방식이 된다.

6.3.2. Minmax risk

빈도주의에서 베이즈 위험도는 환영받는 방식이 아니다. 사전분포를 계산해야 하기 때문이다. 그 대안으로 추정자의 최대 위험도R_{\max}(\delta) = \max_{\mathbf{\theta}^{\ast}} R( \mathbf{\theta}^{\ast} , \delta) 로 정의하자. 이 때 미니맥스 룰은 최대 위험도를 최소화시키는 추정자 \delta_{\mathrm{minmax}} = \mathrm{argmin}_{\delta} R_{\max}(\delta) 을 선택하는 것이다. 미니맥스 추정자는 계산하기 매우 어려우며, 최대 위험도만 최소화시키는 목적을 갖고 있으므로 다른 모델 매개변수들에 대해서는 위험도를 잘 낮추지 못한다. 그리고 미니맥스 추정자는 사실 가장 선호되지 않는 사전분포에 대한 베이즈 추정자이기도 하다.

6.3.3. Admissible estimators

추정자끼리 비교를 할 때 모든 매개변수 \theta에 대해 R(\theta, \delta_{1}) \leq R(\theta, \delta_{2}) 가 성립한다면 \delta_{1}\delta_{2}우세하다고 한다. 등호가 없다면 강우세라고 한다. 어떤 추정자에 대해, 그 추정자에 대해서 강우세인 추정자가 하나도 없다면 허용가능한 추정자라고 한다.

6.3.3.1. Example

가우시안 분포의 평균을 근사할 때, 데이터가 x_{i} \sim \mathcal{N}(\theta^{\ast}, \sigma^{2} = 1)에서 추출되고 분포의 평균을 근사할 때, 데이터가 x_{i} \sim \mathcal{N}(\theta^{\ast}, \sigma^{2} = 1)에서 추출되고 손실함수는 2차 손실 함수 L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^{2}를 쓴다고 하자. 이 때 추정자 \hat{\theta}(\mathbf{x})는 표본평균, 표본중간값, 고정된 값, 어떤 사전분포에 대한 사후평균 등등이 있다. 이들 각각의 위험도를 구하기 위해서는 평균제곱오차가 분산의 제곱과 편향의 합으로 나타내어진다는 사실을 사용하면 된다. \mathrm{MSE}(\hat{\theta} | \theta^{\ast}) = \mathrm{var}[\hat{\theta}] + \mathrm{bias}^{2} (\hat{\theta})

가우시안 분포의 평균에 대한 여러 추정자들에 대한 위험도.

어느 추정자가 가장 좋은가? 매개변수의 참값이 뭐냐에 따라 그때그때 다르다. 당연하지만, 고정된 값 추정자는 그 추정값이 참값과 가까우면 최고의 추정자이다. 참값이 어떤 값 근처에 존재한다는 것을 알면, 사후평균이 가장 좋다. 참값이 어떤 값보다 멀리 위치하면, 최대가능도근사가 좋다. 놀라운 사실은 표본중간값의 위험도는 표본평균의 위험도보다 언제나 높다는 것이다. 그러므로 이 문제에서 표본중간값 추정자의 경우 허용불가능 추정자가 된다.

실제로는 표본중간값이 더 쓸만한데, 표본평균과는 달리 이상치에 대해 상대적으로 덜 취약하기 때문이다.

6.3.3.2. Stein’s paradox

직관과 들어맞지 않는 예제를 보자. 가우시안 분포에서 N개의 i.i.d. 표본 X_{i} \sim \mathcal{N}(\theta_{i}, 1)을 추출한 뒤 이를 통한 평균에 대한 추정자를 \hat{\theta}_{i} = x_{i}로 잡으면, 이는 표본수가 4개 이상이면 이차 손실 함수에 대해 허용불가능한 추정자가 된다. 추정자 \hat{\theta} = \bar{x} + (1 - \hat{B}) (x_{i} - \bar)가 최대가능도근사 추정자에 대해 우세가 되기 때문이다. 이를 스타인 패러독스라 한다.

이것이 함의하는 바는, 매개변수 각각을 근사하는 데에는 관측값을 그대로 사용하는 것이 최선이지만, 매개변수 전체가 이루는 벡터를 근사하는 데에는 전체를 고려한 수축이 더 나은 방법이 될 수 있다는 것이다.

6.3.3.3. Admissibility is not enough

추정자의 허용가능성만으론 충분하지 않다.

Theorem 6.3.3. X \sim \mathcal{N}(\theta, 1)이고 손실 함수가 이차일 때, 상수 추정자 \delta_{1}(x) = \theta_{0}은 허용가능한 추정자이다.

6.4. Desirable properties of estimators

6.4.1. Consistent estimators

표본 크기가 커짐에 따라 항상 매개변수의 참값으로 수렴하는 추정자를 일관적 추정자라 한다. 물론 이 개념은 우리가 얻은 표본이 매개변수의 참값 분포로부터 추출된다는 가정이 깔려야만 말이 된다. 최대가능도근사는 일관적 추정자일까? 가능도를 최대화시키는 것은 KL 분산을 최소화시키는 것과 같다. KL 분산이 0이 될 때는 매개변수의 추정값이 참값과 같을 때이다. 그러므로 최대가능도근사는 일관적 추정자이다.

6.4.2. Unbiased estimators

추정자의 편향은 매개변수의 참값이 \theta_{\ast}일 때 \mathrm{bias}(\hat{\theta}) = \mathbb{E}_{p(\mathcal{D} | \theta_{\ast})} [\hat{\theta}(\mathcal{D}) - \theta_{\ast}]로 정의된다. 추정자의 편향이 0일 때 이를 비편향 추정자라 한다. 이는 표본분포의 평균값이 매개변수의 참값이 됨을 뜻한다.

널리 알려진 사실로, 가우시안 평균의 최대가능도근사는 비편향이지만, 가우시안 분산의 최대가능도근사는 비편향이 아니다. 최대가능도근사 자체는 비편향이 아닐 수 있지만, 이런 최대가능도근사도 데이터 수가 많아지면 비편향으로 수렴하게 된다.

6.4.3. Minimum variance estimators

비편향 추정자만으로 충분한가? 그렇지 않다. 가우시안 분포에서 표본을 추출한 뒤 평균에 대한 추정자를 구할 때 관측된 첫 번째 표본을 평균에 대한 추정자로 삼아도 그것은 비편향 추정자이다. 이는 당연히 표본평균보다 좋지 못하다. 그러므로 추정자의 편향을 줄이는 것뿐만 아니라 분산을 줄이는 것도 중요하다.

비편향 추정자의 분산을 얼마나 줄일 수 있는가? 이에 대해서는 크라머-라오 하한이 있다.

Theorem 6.4.1. (Cramer-Rao inequality). X_{1}, \cdots, X_{n} \sim p(X | \theta_{0})이고 \hat{\theta} = \hat{\theta}(x_{1}, \cdots, x_{n})\theta_{0}에 대한 비편향 추정자라고 하자. p(X | \theta_{0})이 부드러운 함수라면, 분산의 하한은 피셔 정보량 행렬 I(\theta_{0})에 대해 \mathrm{var}[\hat{\theta}] \geq \frac{1}{n I(\theta_{0})}이 성립한다.

최대가능도근사는 크라머 라오 하한을 만족하므로 모든 비편향 추정자들 중 점근적으로 가장 낮은 분산을 갖는다. 즉 최대가능도근사는 점근적으로 최적인 추정자이다.

6.4.4. The bias-variance tradeoff

이차 손실 함수를 사용하여 위험도가 평균제곱오차가 될 때, 평균제곱오차는 편향의 제곱과 분산의 합이다. 이를 편향-분산 트레이드오프라 한다.

6.4.4.1. Example: estimating a Gaussian mean

표본 x_{i} \sim \mathcal{N}(\theta^{\ast} = 1, \sigma^{2})일 때 \mathbf{x} = (x_{1}, \cdots, x_{N})으로부터 가우시안의 평균을 근사하고 싶다.

가장 명확한 근사는 최대가능도근사이다. 편향은 0이고 분산은 \frac{\sigma^{2}}{N}이 된다.

사전평균 \theta_{0}에 대한 최대사후분포근사 \tilde{x} = w \bar{x} + (1-w) \theta_{0}를 사용할 수도 있다. 이 때 편향은 (1-w)(\theta_{0} - \theta^{\ast}), 분산은 w^{2} \frac{\sigma^{2}}{N}이 된다. 비편향은 아니지만 분산은 더 낮다.

사전분포의 세기에 따른 최대사후분포근사의 표본분포 및 그 평균제곱오차.

6.4.4.2. Example: ridge regression

편향-분산 트레이드오프의 중요한 예는 능선 회귀이다. 이는 가우시안 사전분포에 대한 선형 회귀의 최대사후분포근사이다. 사전분포가 \mathcal{N}(\mathbf{w} | \mathbf{0}, \lambda^{-1} \mathbf{I})로 주어질 때, 사전분포의 세기 \lambda가 커지면 편향은 커지고 분산은 작아진다.

능선 회귀에서 편향-분산 트레이드오프의 예시. 윗줄은 강하게 정규화된 사례로서, 피팅된 함수 각각은 비슷한 꼴을 가지지만 (낮은 분산), 그 평균은 참값과는 동떨어지게 된다 (높은 편향). 아랫줄은 약하게 정규화된 사례로서, 피팅된 함수 각각은 서로 차이가 크지만 (높은 분산), 그 평균은 참값에 매우 근접해진다 (낮은 편향).

6.4.4.3. Bias-variance tradeoff for classification

제곱 오차 대신 0-1 손실함수를 쓰면, 빈도학파 위험도가 편향의 제곱과 분산의 합으로 나타내어지지 않게 된다. 그 대신에, 편향과 분산이 같이 곱해지는 형태로 연관된다. 근사가 결정 경계에 대해 맞는 방향으로 이루어지면 편향은 음수가 되고, 분산을 줄이는 것이 미감지율을 줄인다. 하지만 근사가 틀린 방향으로 이루어지면 편향은 양수가 되고, 분산도 늘어나게 된다. 때문에 편향-분산 트레이드오프는 분류 문제에서 유용하지 않다. 분류 문제에서는 편향이나 분산보다 기대손실을 분석하는 데 집중하는 것이 낫다.

6.5. Empirical risk minimization

빈도학파 결정론의 문제는 데이터 분포를 직접 알지 못하기 때문에 위험도 함수를 계산할 수 없다는 것이다. (반대로 베이지안 사후기대손실은 매개변수의 참값 대신 관측된 데이터가 조건을 정의하므로 언제나 계산이 가능하다.)

이에 대한 해결책은 다음과 같다. y를 입력 \mathbf{x}에 대한 반응이라 할 때, 손실 함수 L(y, \delta(\mathbf{x}))에 대해 빈도학파 위험도 R(p_{\ast}, \delta) = \mathbb{E}_{(\mathbf{x}, y) \sim p_{\ast}} [L(y, \delta(\mathbf{x}))] = \sum_{\mathbf{x}} \sum_{y} L(y, \delta(\mathbf{x})) p_{\ast}(\mathbf{x}, y) 가 있을 때, 자연 상태를 나타내는 분포 p_{\ast}를 실측 분포 p_{\mathrm{emp}}(\mathbf{x}, y | \mathcal{D}) = \frac{1}{N} \sum_{i=1}^{N} \delta_{\mathbf{x}_{i}}(\mathbf{x}) \delta_{y_{i}}(y) 로 근사하는 것이다. 이렇게 되면 대응되는 실측 위험도 R_{\mathrm{emp}}(\mathcal{D}, \delta) = \frac{1}{N} \sum_{i=1}^{N} L(y_{i}, \delta(\mathbf{x}_{i}))는 계산가능한 값이 된다.

0-1 손실함수를 쓰면 실측 위험도는 미감지율이 된다. 제곱오차 손실함수를 쓰면 실측 위험도는 평균제곱오차가 된다. 실측 위험도를 최소화시키는 결정 정책 \delta_{\mathrm{ERM}}(\mathcal{D}) = \mathrm{argmin}_{\delta} R_{\mathrm{emp}}(\mathcal{D}, \delta)실측 위험도 최소화(ERM)라 한다.

비지도학습에서는 손실함수가 L(\mathbf{x}, \delta(\mathbf{x}))가 된다. 이 때 실측 위험도는 R_{\mathrm{emp}}(\mathcal{D}, \delta) = \frac{1}{N} \sum_{i=1}^{N} L(\mathbf{x}_{i}, \delta(\mathbf{x}_{i})) 이다.

6.5.1. Regularized risk minimization

실측 분포가 자연상태 분포의 사전분포와 같아진다면, 실측 위험도는 이 사전분포를 사용한 베이즈 위험도와 일치한다. 따라서 실측 위험도를 최소화시키면 실측 데이터에 과적합되기 쉽다. 이를 방지하기 위해 모델의 복잡도를 측정하는 C(\delta), 복잡도에 대한 패널티 가중치를 \lambda라 할 때 실측 위험도에 패널티 항을 붙여 R'(\mathcal{D}, \delta) = R_{\mathrm{emp}}(\mathcal{D}, \delta) + \lambda C(\delta) 와 같이 계산한다. 이를 정규화 위험도 최소화라 한다. 손실함수가 음의 로그가능도이고 정규화 함수가 음의 로그 사전분포라면 이것은 최대사후분포근사와 같아진다.

정규화 위험도 최소화의 두 가지 고려할 점은 모델의 복잡도를 어떻게 측정할 것인가, 그리고 복잡도에 대한 패널티 가중치를 어떻게 고를 것인가이다.

6.5.2. Structural risk minimization

정규화 위험도 최소화에서 복잡도에 대한 패널티 가중치 \lambda는 어떻게 선택해야 할까? 학습 데이터를 사용할 수는 없다. 위험도를 낮게 측정하게 되기 때문이다 (학습 데이터의 낙관). 그 대신 다음과 같이 위험도를 \hat{R}로 근사한 뒤 그를 최소화시키는 구조적 위험도 최소화 원리를 사용한다. \hat{\lambda} = \mathrm{argmin}_{\delta} \hat{R} (\hat{\delta}_{\lambda})

위험도 함수를 근사하는 데는 두 가지 방법이 있다. 하나는 교차검증이고 하나는 위험도의 이론적 상한을 이용하는 것이다.

6.5.3. Estimating the risk using cross validation

검증 데이터 집합을 통해 추정자의 위험도를 측정할 수 있는데, 검증 집합을 마련해둔 것이 없다면 교차검증을 수행할 수 있다. 이는 우선 데이터를 k분할하는 것으로 이루어진다. (계층 교차검증에서는 각각의 분할마다 클래스의 비율이 비슷하도록 한다.) 각각의 데이터 분할을 \mathcal{D}_{k}, 그 분할을 뺀 나머지 데이터를 \mathcal{D}_{-k} 이라 하자.

학습 알고리즘 \mathcal{F}(\mathcal{D}, m)가 모델 인덱스 (다항식 차수나 정규화 인자 등) m와 데이터셋 \mathcal{D}를 받아 모델 매개변수 \hat{\mathbf{\theta}}를 리턴하고, 예측기 \mathcal{P}(\mathbf{x}, \mathbf{\theta})는 입력 \mathbf{x}과 모델 매개변수 \hat{\mathbf{\theta}} 를 받아 예측값 \hat{y}를 리턴한다고 하면, 모델 피팅-예측 사이클f_m(\mathbf{x}, \mathcal{D}) = \mathcal{P} (\mathbf{x},  \mathcal{F}(\mathcal{D}, m) ) 로 나타낼 수 있을 것이다.

이 때 피팅-예측함수 f_m의 K분할 교차검증 근사 위험도는 R(m, \mathcal{D}, \mathcal{K}) = \frac{1}{N} \sum_{k} \sum {\mathcal{D}_{k}} L(y_{i}, f_{m}(\mathbf{x}_{i}, \mathcal{D}_{-k})) 가 된다. 풀어 쓰자면, 어떤 데이터 조각 \mathcal{D}_{k} 내에서 그 데이터 조각을 뺀 나머지 데이터들로 모델을 피팅한 뒤, 그 모델로 \mathcal{D}_{k} 내의 데이터들을 예측하고, 그 손실함수를 계산해 평균낸 것이다.

K = N인 경우 단일 제거 교차 검증(LOOCV)라 한다. 모델을 N번이나 피팅해야 한다는 것이 큰 단점이 되는데, 선형 모델 + 이차 손실함수 같은 특수 케이스에 대해서는 모델을 한 번만 피팅한 뒤 단일 학습 데이터의 영향을 피팅된 모델에서 제거한 뒤 예측을 하는 것도 가능하다. 이것을 일반화 교차검증이라 한다.

6.5.3.1. Example: using CV to pick \lambda for ridge regression

이차 손실 함수를 사용하는 능선 회귀에서 교차 검증을 통해 정규화 계수 \lambda를 결정하는 방법은 다음과 같을 것이다.

\hat{\lambda} = \frac{1}{N} \mathrm{argmin} \sum_{k} \sum_{\mathcal{D}_{k}}  \lVert y_{i} -  (\mathbf{x}^{T} (\mathrm{argmin}_{\mathbf{w}} \mathrm{NLL}(\mathbf{w}, \mathcal{D}_{-k}) + \lambda \lVert \mathbf{w} \rVert_{2}^{2} ) \rVert_{2}^{2}

선형 회귀를 이용해 이진 분류를 하는 경우에는 이차 손실 함수 대신 0-1 손실 함수를 사용한다. 이 경우 실측 위험도의 상한을 통해 \mathbf{w}_{\lambda}를 근사하는 대신에, 교차검증 위험도를 통해 직접 \lambda를 근사한다. 이 때에는 \lambda를 1차원 공간 위에서 변화시켜가면서 브루트포스 검색을 하게 된다.

2개 이상의 초매개변수를 최적화해야 할 때는 이러한 브루트포스 접근은 적용하기 어려우므로, 실측 베이스 기법을 사용한다.

6.5.3.2. The one standard error rule

위의 과정은 위험도를 근사하기는 하나 추정자의 불확실성을 측정하지는 못한다. 이에 대한 빈도학파에서의 고전적 접근법은 평균의 표준오차 \frac{\hat{\sigma}}{\sqrt{N}} 를 이용하는 것이다. 여기서 \hat{\sigma}는 손실함수의 표준편차이다.

보통 모델을 휴리스틱하게 선택할 때는 가장 간단한 모델들 중에서 리스크가 단일 표준오차를 넘지 않는 것을 택한다. 이를 단일 표준오차 룰이라 한다.

l2-정규화된 14차 다항식 근사의 정규화계수별 테스트/학습 데이터에서의 평균제곱오차. / 정규화계수별 평균제곱오차의 교차검증 근사.

6.5.3.3. CV for model selection in non-probabilistic unsupervised learning

비지도학습에 대해서는 인코딩-디코딩 방법 \delta에 대한 손실 함수로 재구축오차 L(\mathbf{x}, \delta(\mathbf{x})) = \lVert \mathbf{x} - \delta(\mathbf{x})\rVert_{2}^{2} 를 사용하는데, 이 경우에는 교차검증법을 사용할 수 없다. 인코딩-디코딩 모델에서는 복잡도가 높아질수록 무조건 손실값이 낮아지기 때문이다. 그러므로 이 때는 확률적 모델을 사용해야 한다.

6.5.4. Upper bounding the risk using statistical learning theory

교차검증법의 최대 단점은 느리다는 것이다. 모델을 여러 번 피팅해야 하기 때문이다. 그 대안으로 모델의 위험도에 대한 상한을 이론적으로 구하는 방법이 있다. 이를 통계적 학습론이라 한다. 모델의 후보군의 수가 유한할 때에는 다음이 성립한다:

Theorem 6.5.1. 데이터 분포 p_{\ast}와 이로부터 추출된 크기 N의 데이터 셋 \mathcal{D}가 있을 때, 최악의 근사 오차율이 \epsilon보다 높을 확률은 다음보다 작다:

P(\max_{\mathcal{H}}\lvert R_{\mathrm{emp}} (\mathcal{D}, h) - R(p_{\ast}, h)\rvert > \epsilon) \leq \mathrm{dim}(\mathcal{H}) e^{-2N\epsilon^{2}}

증명은 회프딩 부등식합집합 상한을 사용한다.

위의 식은 최악의 학습 오차율의 상한은 모델의 후보군의 수에 비례한다. 많은 모델을 볼 수록 여러 모델들 중에서의 최악의 학습 오차율은 커지기 때문이다. 모델의 복잡도에는 비례할 필요가 없음을 유의하라. 또한 오차율의 상한은 학습 데이터의 크기가 커질수록 작아진다.

모델의 후보군의 수가 무한할 때 (실수 초매개변수를 택할 때 등)은 바프닉-체보넨키스(VC) 차원 등의 지표를 사용한다.

이의 의미를 생각해보자. 우리는 모델을 피팅하면서 실측 위험도가 낮은 모델을 찾았다. 이 때 모델의 후보군의 수가 데이터의 크기에 비해 많았다면 우리는 그저 운이 좋았을 확률이 높고, 실측 위험도가 낮은 모델이 꼭 일반화 오차가 낮다는 보장은 없다. 하지만 모델의 후보군의 수가 적고 데이터의 크기가 매우 컸다면, 실측 위험도가 낮은 모델은 위험도의 참값도 낮을 확률이 높다.

통계적 학습론의 장점은 교차검증법보다 빠르다는 것이고, 단점은 VC 차원 등을 계산하기가 매우 어려우며 이 상한은 대단히 느슨한 상한이라는 것이다. 학습 모델의 계산적 복잡도를 차용해 통계적 학습론을 일반화시킬 수 있는데, 이를 계산적 학습론(COLT)라 한다.

실측 리스크가 작은데 모델 후보군의 수가 충분히 적었다면 우리의 함수를 근사적으로 정확(PAC)라 한다. 어떤 모델 후보군 내에서 PAC한 함수를 다항 시간 내에 찾을 수 있으면 효과적으로 PAC 학습 가능하다고 한다.

6.5.5. Surrogate loss function

실측 리스크 최소화나 정규화 위험도 최소화법은 항상 적용가능하지는 않다. 이진 분류 같은 경우에는 0-1 손실 함수가 매끈하지 않기 때문에 손실 함수를 최적화하기 힘들기 때문이다. 그 대신 대안적 손실 함수로서 최대가능도근사의 로그-손실 L_{\mathrm{NLL}}(y, \eta) = -\log p(y|\mathbf{x}, \mathbf{w})을 사용한다. 이는 매끈한 함수이므로 최적화하기 쉬워진다.

로그-손실 함수 이외에도 경첩 손실 L_{\mathrm{hinge}}(y, \eta) = \max (0, 1 - y \eta)를 사용할 수도 있다. 이는 지지대 벡터 기계(SVM) 등의 알고리즘에 쓰인다.

여러 대안적 손실 함수.

6.6. Pathologies of frequentist statistics

빈도학파 통계학에서는 몇 가지 문제점들이 있다.

6.6.1. Counter-intuitive behavior of confidence intervals

매개변수의 빈도주의 신뢰구간은 추정자의 표본분포로부터 유도되는 구간 C_{\alpha}^{\prime} = (l, u) : P(l(\tilde{\mathcal{D}}) \leq \theta \leq u(\tilde{\mathcal{D}}) |  \tilde{\mathcal{D}} \sim \theta ) = 1 - \alpha다. (이에 반해, 신용구간은 매개변수의 사후분포로부터 유도되는 구간이다.) 이는 매개변수값 \theta로부터 가상의 데이터를 추출했을 때 \theta1 - \alpha의 확률로 존재하게 되는 구간이다.

신뢰구간이 잘 들어맞지 않는 예로 베르누이 분포의 평균 \theta를 근사하는 상황을 보자. 이 때 최대가능도근사는 표본평균으로, \hat{\theta} = \bar{x}가 된다. 이 경우 95% 신뢰구간 (왈드 구간)은 \bar{x} \pm 1.96 \sqrt{\bar{x}(1-\bar{x})/N} 이 된다. 시행횟수 1에 뒷면이 나온 경우에는 최대가능도근사는 0인데, 신뢰구간도 (0, 0)이 되는 것이다. 극단적인 예시를 들어서 그렇다고 할 수도 있겠지만 왈드 구간은 표본 크기가 크고 매개변수가 극단적인 케이스가 아닐 때에도 잘 들어맞지 않을 때도 있다.

6.6.2. p-values considered harmful

귀무가설을 기각하는 데 있어 빈도학파에서는 p-값을 흔히 쓰는데, 이는 어떠한 테스트 통계량 f(\mathcal{D})에 대해 실제 관측된 데이터의 테스트 통계량보다 귀무가설 모델에서 샘플링한 데이터의 테스트 통계량이 클 확률로 정의된다: \mathrm{p-value}(\mathcal{D}) = P(f(\tilde{\mathcal{D}}) \geq f(\mathcal{D}) | \tilde{\mathcal{D}} \sim H_{0}) 이 변량은 표본분포의 꼬리 영역 확률을 계산함으로써 구해진다.

p-값이 어떤 기준 \alpha = 0.05 보다 작다면 귀무가설을 기각하며, 관찰된 테스트 통계량과 기대 테스트 통계량의 차가 통계적으로 유의하다고 한다. 이를 귀무가설 유의도 검정(NHST)라 한다. 이는 거짓 양성 (1형) 오차율이 최대 \alpha임을 보장한다.

문제가 되는 것은 p-값은 우리에게 정말 중요한 통계량과는 동떨어진 경우가 있다는 것이다. 또한 p-값의 또 다른 문제점은, 관측된 데이터들이 완전히 같더라도 문제를 보는 관점에 따라 달라진다는 점이다.

동전을 12회 던져서 앞면이 9번, 뒷면이 3번 나왔다고 하자. 귀무가설은 동전의 앞/뒷면 확률이 같다는 것으로 한다. 이를 이항 분포로 모델링하면 양면 p-값은 \sum_{s=9}^{12} \mathrm{Bin}(s | 12, 0.5) +  \sum_{s=0}^{3} \mathrm{Bin}(s | 12, 0.5) = 0.146 > 0.05 이므로, 귀무가설을 기각하지 않을 것이다. 그러나 이를 “뒷면이 3번 나올 때까지 던진” 상황으로 보고 음성 이항 분포로 모델링하면 p-값은 \sum_{s=9}^{\infty} \binom{3+s-1}{2} \frac{1}{2}^{s} \frac{1}{2}^{3} = 0.0327 < 0.05 이므로 귀무가설은 기각된다. 관측된 데이터가 완전히 같은데도 정지 규칙에 따라 귀무가설의 기각 여부가 달라지는 것이다. 이는 빈도학파적 분석은 정지 규칙을 입맛대로 세워 귀무 가설의 기각 여부를 조정할 수 있다는 것이 된다.

6.6.3. The likelihood principle

이러한 문제들의 근본적 이유는 빈도학파적 추론이 가능도 원리, 즉 추론은 관측된 데이터의 가능도에 의존해야 하지 관측되지 않은 가상의 미래 데이터에 의존하면 안 된다는 룰을 깨기 때문이다. 가능도 원리를 뒷받침하는 2개의 근거는 첫째로는 충족 통계량은 미지의 매개변수에 대한 충분한 정보를 갖고 있다는 충족 원리, 둘째로는 추론은 이미 일어난 일에 근거해야 하지 앞으로 일어날 수 있는 일에 근거해서는 안 된다는 약한 조건 제한이 있다.

6.6.4. Why isn’t everyone a Bayesian?

빈도학파 접근의 이러한 문제점에 대해서는 왜 모두가 베이지안적 접근을 따르지 않는가? 라는 의문을 가질 수 있다. 이 문제에 대한 답은 시간이 해결해 줄 것이다.

요점 정리

  • 빈도학파 통계학이란?
  • 추정자와 그 표본 분포에 대해서
  • 빈도학파 결정론 : 추정자의 위험도
  • 추정자의 여러 바람직한 특성들 : 비편향, 최소 분산 – 편향-분산 트레이드오프.
  • 실측 위험도 최소화.
  • 빈도학파 통계학의 여러 근본적 문제점들.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중