2. Probability Distributions

이 장에서는 여러 확률분포의 예제에 대해 알아본다. 이의 역할은 확률변수에 대한 여러 관측이 주어졌을 때 확률분포를 추정하는 밀도 추정이다. 이산확률변수에 대해서는 이항 분포와 다항 분포를 알아본다. 또한 켤레사전분포의 중요성도 알아본다. 매개화된 접근법과 비매개화된 접근법의 차이도 알아본다.

2.1. Binary Variables

이진확률변수에 대한 확률분포로는 베르누이 분포 Ber(x | \mu) = \mu^{x}(1 - \mu)^{1-x}이 있다. \mathbb{E}[x] = \mu, \mathrm{var}[x] = \mu(1-\mu)이다. 로그 가능도는 \sum_{n=1}^{N} \ln p(x_{n} | \mu) = \sum_{n=1}^{N} [x_{n} \ln \mu + (1 - x_{n}) \ln (1 - \mu)]이 된다. 최대가능도추정은 \mu_{MLE} = \frac{m}{N}이다.

시행 횟수가 여러 번인 베르누이 분포를 이항 분포 Bin(m | N, \mu) = \binom{N}{m}\mu^{m}(1-\mu)^{N - m}이다. \mathbb{E}[x] = N \mu, \mathrm{var}[x] = N \mu(1- \ mu)이다.

2.1.1. The beta distribution

이항분포에 대한 켤레사전분포로는 베타 분포 Beta(\mu | a, b) = \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}\mu^{a-1} (1 - \mu)^{b-1} 가 있다. \mathbb{E}[\mu] = \frac{a}{a+b}, \mathrm{var}[\mu] = \frac{ab}{(a+b)^{2}(a+b+1)}이다. 이를 적용한 사후분포는 p(\mu | m, l, a, b) = \frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}이 된다. 사후예측분포 p(x = 1 | \mathcal{D}) = \frac{m+a}{m + a + l + b}이다.

베이지안 추론에 대한 기대값과 분산에는 다음이 성립한다.

\mathbb{E}_{\mathbf{\theta}}[\mathbf{\theta}] = \mathbb{E}_{\mathcal{D}}[\mathbb{E}_{\mathbf{\theta}}[\mathbf{\theta} | \mathcal{D}]]

\mathrm{var}_{\mathbf{\theta}}[\mathbf{\theta}] = \mathbb{E}_{\mathcal{D}}[\mathrm{var}_{\mathbf{\theta}}[\mathbf{\theta} | \mathcal{D}]] + \mathrm{var}_{\mathcal{D}}[\mathbb{E}_{\mathbf{\theta}}[\mathbf{\theta} | \mathcal{D}]]

즉, 데이터를 더 많이 관측할 수록 사후분포의 불확실성은 줄어든다. 사후분포의 분산은 평균적으로는 사전분포의 분산보다 적다.

2.2. Multinomial Variables

K개의 상태를 가질 수 있는 이산확률변수를 고려해 보자. 이 때 분포는 p(\mathbf{x} | \mathbf{\mu}) = \prod_{k=1}^{K} \mu_{k}^{x_{k}} (\sum_{k}\mu_{k}=1)이 된다. \mathbb{E}[\mathbf{x} | \mathbf{\mu}] = \mathbf{\mu}이고, 가능도 p(\mathcal{D} | \mathbf{\mu}) = \prod_{k=1}^{K} \mu_{k}^{m_{k}}이다. 최대가능도추정은 \mu_{k, MLE} = \frac{m_{k}}{N}이다. 이의 결합분포는 다항 분포 Mult(m_{1}, \cdots, m_{k} | \mathbf{\mu}, N) = \binom{N}{m_{1} \cdots m_{K}}\prod_{k=1}^{K} \mu_{k}^{m_{k}}이다.

2.2.1. The Dirichlet distribution

다항 분포에 대한 켤레사전분포는 \mathrm{Dir}(\mathbf{\mu} | \mathbf{\alpha}) = \frac{\Gamma(\alpha_{0})}{\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{k})} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k} - 1}이다.

이를 적용한 사후분포는 p(\mathbf{\mu} | \mathcal{D}, \mathbf{\alpha}) = \mathrm{Dir}(\mathbf{\mu} | \mathbf{\alpha} + \mathbf{m})이다.

2.3. The Gaussian Distribution

일변수 가우시안은 \mathcal{N}(x  | \mu, \sigma^{2}) = \frac{1}{(2 \pi \sigma^{2})^{\frac{1}{2}}}e^{-\frac{1}{2 \sigma^{2}} (x - \mu)^{2}}이다.

다변수 가우시안은 \mathcal{N}(\mathbf{x} | \mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{\lvert \mathbf{\Sigma} \rvert^{\frac{1}{2}}} e^{-\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})}이다.

중심 극한 정리에 의하면 특정 조건 하에서 확률변수들의 합은 그 확률변수들의 수가 커짐에 따라 가우시안에 가까워진다.

가우시안 분포의 기하학적 의미로는 밀도함수가 평균을 중심으로 타원형의 등고선을 형성한다는 것이다. 이 타원형의 모양은 공분산 행렬의 고유벡터들에 의해 정의된다. 가우시안 분포의 기대값은 \mathbb{E}[\mathbf{x}] = \mathbf{\mu}, 공분산은 \mathrm{cov}[\mathbf{x}] = \mathbf{\Sigma}이다.

가우시안 분포의 단점은 자유 매개변수의 수가 너무 많다는 점이다. 공분산 행렬 때문이다. 이를 대각 행렬로 한다던가 단위 행렬의 배수로 한다던가 하는 방법이 있지만 이는 모델의 표현력을 줄인다는 단점이 있다. 또한, 다최빈분포에 대해 모델링할 수 없다는 단점이 있다. 이는 여러 가우시안을 혼합해서 해결한다.

2.3.1. Conditional Gaussian distributions

\mathbf{x} = [\mathbf{x}_{a}, \mathbf{x}_{b}]^{T}일 때 다음이 성립한다.

\mathbf{\mu}_{a | b} = \mathbf{\mu}_{a} + \mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}(\mathbf{x}_{b} - \mathbf{\mu}_{b})

\mathbf{\Sigma}_{a | b} = \mathbf{\Sigma}_{aa} - \mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1} \mathbf{\Sigma}_{ba}

2.3.2. Marginal Gaussian distributions

주변분포는 다음과 같다. p(\mathbf{x}_{a}) = \mathcal{N}(\mathbf{x}_{a} | \mathbf{\mu}_{a}, \mathbf{\Sigma}_{aa})

2.3.3. Bayes’ theorem for Gaussian variables

가우시안 변수에 대해 베이즈 정리를 적용했을 때 나오는 분포도 역시 가우시안이다. 다음 주변분포와 조건분포를 고려해 보자:

p(\mathbf{x}) = \mathcal{N}(\mathbf{x} | \mathbf{\mu}, \mathbf{\Sigma}^{-1})

p(\mathbf{y} | \mathbf{x}) = \mathcal{N}(\mathbf{y} | \mathbf{A}\mathbf{x}+\mathbf{b}, \mathbf{L}^{-1})

이 때 \mathbb{E}[\mathbf{y}] = \mathbf{A}\mathbf{\mu} + \mathbf{b}, \mathrm{cov}[\mathbf{y}] = \mathbf{L}^{-1} + \mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{T}

조건부 분포 p(\mathbf{x} | \mathbf{y})에 대해서는 다음이 성립한다.

\mathbb{E}[\mathbf{x} | \mathbf{y}] = (\mathbf{\Lambda} + \mathbf{A}^{T} \mathbf{L} \mathbf{A})^{-1} (\mathbf{A}^{T} \mathbf{L} (\mathbf{y} - \mathbf{b}) + \mathbf{\Lambda} \mathbf{\mu})

\mathrm{cov}[\mathbf{x} | \mathbf{y}] = (\mathbf{\Lambda} + \mathbf{A}^{T} \mathbf{L} \mathbf{A})^{-1}

2.3.4. Maximum likelihood for the Gaussian

가우시안의 가능도는 다음과 같다.

-\frac{ND}{2} \ln (2 \pi) - \frac{N}{2} \ln \lvert \mathbf{\Sigma} \rvert - \frac{1}{2} \sum_{n=1}^{N} (\mathbf{x}_{n} - \mathbf{\mu})^{T} \mathbf{\Sigma}^{-1} (\mathbf{x}_{n} - \mathbf{\mu})

이에 대한 최대가능도 근사는 다음과 같다.

\mathbb{E}[\mathbf{\mu}_{MLE}] = \mathbf{\mu}

\mathbb{E}[\mathbf{\Sigma}_{MLE}] = \frac{N-1}{N} \mathbf{\Sigma}

2.3.5. Sequential estimation

최대가능도 근사는 온라인 학습이 가능하다.

\mathbf{\mu}_{MLE, N} = \mathbf{\mu}_{MLE, N - 1} + \frac{1}{N}(\mathbf{x}_{N} - \mathbf{\mu}_{MLE, N - 1})

이를 일반화한 온라인 학습은 다음과 같다.

\theta_{N} = \theta_{N-1} - a_{N-1} \frac{\partial}{\partial \theta_{N-1}}(-\ln p(x_{N} | \theta_{N-1}))

2.3.6. Bayesian inference for the Gaussian

가우시안의 \mu에 대한 켤레사전분포는 역시 가우시안이다. p(\mu) = \mathcal{N}(\mu | \mu_{0}, \sigma_{0}^{2})일 때 사후분포 p(\mu | \mathbf{x}) = \mathcal{N}(\mu | \mu_{N}, \sigma_{N}^{2})이다. (\mu_{N} = \frac{\sigma^{2}}{N \sigma_{0}^{2} + \sigma^{2}} \mu_{0} + \frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2} + \sigma^{2}} \mu_{MLE}, \frac{1}{\sigma_{N}^{2}} = \frac{1}{\sigma_{0}^{2}} + \frac{N}{\sigma^{2}}

\lambda에 대한 켤레사전분포는 감마 분포이다. p(\lambda) = \mathrm{Gam}(\lambda | a, b) = \frac{1}{\Gamma(a)} b^{a} \lambda^{a-1} e^{-b \lambda}일 때 사후분포 p(\lambda | \mathbf{x}) = \mathrm{Gam}(\lambda | a + \frac{N}{2}, b + \frac{N}{2} \sigma_{MLE}^{2})이 된다.

\mu, \lambda를 전부 모를 때에는 가우시안-감마 켤레사전분포, 다변수인 경우 가우시안-위샤트 분포를 쓴다.

2.3.7. Student’s t-distribution

가우시안 분포의 정밀도에 감마 사전분포를 쓴 뒤 정밀도를 적분해 낸 분포를 스튜던트 t-분포 \mathrm{St}(x | \mu, \lambda, \nu) = \frac{\Gamma(\frac{\nu}{2} + \frac{1}{2})}{\Gamma(\frac{\nu}{2})} (\frac{\lambda}{\pi \nu})^{\frac{1}{2}}[1 + \frac{\lambda(x - \mu)^{2}}{\nu}]^{-\frac{\nu}{2} - \frac{1}{2}} 라 한다. 이는 이상치에 대해 더 강건하다.

2.3.8. Periodic variables

주기함수에 대해서는 가우시안은 부적절한 선택이다. 이 때는 본 미세스 분포 p(\theta | \theta_{0}, m) = \frac{1}{2 \pi I_{0}(m)} e^{m \cos (\theta - \theta_{0})}이 쓰인다. (I_{0}(m) = \frac{1}{2 \pi} \int_{0}^{2 \pi} e^{m \cos \theta} d \theta

다만 이도 최빈값이 하나라는 한계점은 있다.

2.3.9. Mixtures of Gaussians

다최빈값 분포를 모델링하기 위해서는 가우시안의 혼합 p(\mathbf{x}) = \sum_{k=1}^{K} \pi_{k} \mathcal{N}(\mathbf{x} | \mathbf{\mu}_{k}, \mathbf{\Sigma}_{k})이 쓰인다. (\sum_{k=1}^{K} \pi_{k} = 1, 0 \leq \pi_{k} \leq 1)

이는 최대가능도근사를 구하는 것이 불가능하고 기대값 최대화 등을 이용해야 한다.

2.4. The Exponential Family

지수족은 매개변수 \mathbf{\eta}에 대해 p(\mathbf{x} | \mathbf{\eta}) = h(\mathbf{x}) g(\mathbf{\eta}) e^{\mathbf{\eta}^{T} \mathbf{u}(\mathbf{x})}의 형태를 갖는 분포를 말한다. 베르누이 분포, 가우시안 분포 등은 지수족에 속한다.

2.4.1. Maximum likelihood and sufficient statistics

지수족 함수에서 음의 로그가능도의 미분은 \frac{1}{N} \sum_{n=1}^{N} \mathbf{u} (\mathbf{x}_{n})이므로 \sum_{n=1}^{N} \mathbf{u}(\mathbf{x}_{n})만 알면 최대가능도근사를 할 수 있다. 이를 충족 통계량이라 한다. 이 성질은 베이지안 추론에 대해서도 성립한다.

2.4.2. Conjugate priors

지수족에는 지수족 켤레사전분포가 존재한다.

2.4.3. Noninformative priors

확률분포는 변수 변환에 대해 불변이 아니다. 그래서 비정보적 사전분포를 정할 때는 변수 변환에 대해 불변이도록 해야 한다. 제프리 사전분포 등이 쓰인다.

2.5. Nonparametric methods

확률변수에 대한 매개화된 접근법의 단점은 매개화된 분포의 형태에 의존한다는 점이다. 이의 대안으로 분포의 조건에 거의 제한을 두지 않고 데이터에 의존하는 비매개화 접근법이 있다. 예를 들어 히스토그램 분포같은 것. 그러나 이 방법에는 두 가지 단점이 있는데 특정 지점의 밀도함수값을 추정하려면 그 지점 근처에서의 데이터 샘플이 필요하다는 것이고 히스토그램 두께 등의 다듬질 변수를 어떻게 결정하는지에 크게 의존한다는 점이다. 그래서 이보다 더 나은 두 가지 방법이 있다.

2.5.1. Kernel density estimators

각각의 데이터에 대해 그를 중심으로 하는 입방체에 커널 함수를 배정한 뒤 이를 가중치 합하는 방식으로 커널 밀도 추정을 할 수 있다.

2.5.2. Nearest-neighbour methods

커널 밀도 추정의 단점은 커널 두께가 고정되어 있다는 점이다. 국소적으로 적절한 반경을 선택하도록 개선할 수 있는데, 이를 K 최근접 근방 법이라 한다.

비매개화 방법의 단점은 데이터 전체를 저장하고 있어야 하므로 온라인 학습이 불가능하다. 계산량도 많다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중