10. Approximate Inference

잠재 변수가 있을 때 사후분포 p(\mathbf{Z} | \mathbf{X})나 이에 대한 기대값을 계산하는 것은 어렵다. 여기서는 여러 근사 방법들을 다룬다.

10.1. Variational Inference

변분 추론은 함수 p에 대한 우리가 잘 아는 분포에 속하는 근사 q가 있을 때 \ln p(\mathbf{X}) = \mathcal{L}(q) + KL(q \lvert \lvert p)로 이를 근사하여 KL 발산을 줄이는 방향으로 이루어진다. \mathcal{L}(q) = \int q(\mathbf{Z}) \ln \frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}d \mathbf{Z}이다.

10.1.1. Factorized distributions

근사 분포가 인수분해된다고 가정하면 다음을 얻는다.

\mathcal{L}(q) = \int q_{j} \ln \tilde{p}(\mathbf{X}, \mathbf{Z}_{j}) d \mathbf{Z}_{j} - \int q_{j} \ln q_{j} d \mathbf{Z}_{j} + \mathrm{const}

\ln \tilde{p}(\mathbf{X}, \mathbf{Z}_{j}) = \mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})] + \mathrm{const}.

\mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})] = \int \ln p(\mathbf{X}, \mathbf{Z}) \prod_{i \neq j} q_{i} d \mathbf{Z}_{i}.

이러면 다음을 얻는다.

\ln q_{j}^{\ast}(\mathbf{Z}_{j}) = \mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})] + \mathrm{const}.

10.1.2. Properties of factorized approximations

인수분해된 근사의 경우 각 인자 분포들의 최적값이 다른 인자 분포들의 값에 의존한다. 그러므로 다른 인자 분포들의 값을 이용해 한 인자 분포의 값을 추정해 이를 모든 인자에 대해 반복하고 이를 수렴할 때까지 반복하는 과정을 거친다.

10.1.3. Example: The univariate Gaussian

일변수 가우시안에 대해 q(\mu, \tau) = q_{\mu}(\mu) q_{\tau}(\tau)로 근사하면 잘 근사됨을 알 수 있다.

10.1.4. Model comparison

모델 비교는 다음과 같이 수행한다.

q(m) \propto p(m) e^{\mathcal{L}_{m}}

\mathcal{L}_{m} = \sum_{\mathbf{Z}} q(\mathbf{Z} | m) \ln \frac{p(\mathbf{Z}, \mathbf{X} | m)}{q(\mathbf{Z} | m)}

10.2. Illustration: Variational Mixture of Gaussians

가우시안 혼합 분포를 변분 근사해 보자.

10.2.1. Variational distribution

이는 다음과 같이 근사된다.

q(\mathbf{Z}, \mathbf{\pi}, \mathbf{\mu}, \mathbf{\Lambda}) = q(\mathbf{Z}) q(\mathbf{\pi}) \prod_{k=1}^{K} q(\mathbf{\mu}_{k}, \mathbf{\Lambda}_{k})

이 분포들 각각은 기댓값 최대화 알고리즘으로 수렴할 때까지 업데이트된다.

10.2.2. Variational lower bound

변분 하한 \mathcal{L}(q)는 쉽게 구할 수 있다. 수렴 과정에서 이것이 계속 증가되는지 테스트해서 구현이 맞는지 여부를 알 수 있다.

10.2.3. Predictive density

사후예측분포도 다음과 같이 구할 수 있다.

p(\hat{\mathbf{x}} | \mathbf{X}) = \sum_{\hat{\mathbf{z}}} \int \int \int p(\hat{\mathbf{x}} | \hat{\mathbf{z}}, \mathbf{\mu}, \mathbf{\Lambda}) p(\hat{\mathbf{z}} | \mathbf{\pi}) p(\mathbf{\pi}, \mathbf{\mu}, \mathbf{\Lambda} | \mathbf{X}) d \mathbf{\pi} d \mathbf{\mu} d \mathbf{\Lambda}

10.2.4. Determining the number of components

모델 결정 시에 혼합 컴포넌트 개수를 비교할 때에는 \ln K! 항을 고려해 줘야 한다.

10.2.5. Induced factorizations

근사 분포에서 최초 이후 유도되는 인자의 인수분해는 그래프 모델의 d-분할 테스트로 알 수 있다.

10.3. Variational Linear Regression

변분 선형 회귀에 대해 알아보자.

10.3.1. Variational distribution

근사 분포는 다음과 같다.

q(\mathbf{w}, \alpha) = q(\mathbf{w}) q(\alpha)

q^{\ast}(\alpha) = \mathrm{Gam}(\alpha | a_{N}, b_{N})

a_{N} = a_{0} + \frac{M}{2}

b_{N} = b_{0} + \frac{1}{2} \mathbb{E}[\mathbf{w}^{T} \mathbf{w}]

q^{\ast}(\mathbf{w}) = \mathcal{N}(\mathbf{w} | \mathbf{m}_{N}, \mathbf{S}_{N})

\mathbf{m}_{N} = \beta \mathbf{S}_{N} \mathbf{\Phi}^{T} \mathbf{t}

\mathbf{S}_{N} = (\mathbb{E}[\alpha] \mathbf{I} + \beta \mathbf{\Phi}^{T} \mathbf{\Phi})^{-1}

10.3.2. Predictive distribution

예측분포는 다음과 같다.

p(t | \mathbf{x}, \mathbf{t}) \simeq \mathcal{N}(t | \mathbf{m}_{N}^{T} \mathbf{\phi}(\mathbf{x}), \sigma^{2} (\mathbf{x}))

10.3.3. Lower bound

변분 하한도 쉽게 구할 수 있다.

10.4. Exponential Family Distributions

지수족 함수 p(\mathbf{X}, \mathbf{Z} | \mathbf{\eta}) = \prod_{n=1}^{N} h(\mathbf{x}_{n}, \mathbf{z}_{n}) g(\mathbf{\eta}) e^{\mathbf{\eta}^{T} \mathbf{u}(\mathbf{x}_{n}, \mathbf{z}_{n})}에 대한 변분 근사는 다음과 같다.

q^{\ast}(\mathbf{z}_{n}) = h(\mathbf{x}_{n}, \mathbf{z}_{n}) g(\mathbb{E}[\mathbf{\eta}]) e^{\mathbb{E}[\mathbf{\eta}^{T}] \mathbf{u}(\mathbf{x}_{n}, \mathbf{z}_{n})}

q^{\ast}(\mathbf{\eta}) = f(\nu_{N}, \mathbf{\chi}_{N}) g(\mathbf{\eta})^{\nu_{N}} e^{\nu_{N} \mathbf{\eta}^{T} \mathbf{\chi}_{N}}

10.4.1. Variational message passing

변분 추론은 방향그래프 모델에서 메시지 패싱으로도 생각할 수 있다.

10.5. Local Variational Methods

전체 사후분포를 근사하는 것이 아니라 특정 확률변수의 분포나 조건분포만 변분 근사할 수도 있다.

10.6. Variational Logistic Regression

변분 근사 로지스틱 회귀를 알아보자.

10.6.1. Variational posterior distribution

사후분포에 대한 변분 근사는 다음과 같다.

q(\mathbf{w}) = \mathcal{N}(\mathbf{w} | \mathbf{m}_{N}, \mathbf{S}_{N})

\mathbf{m}_{N} = \mathbf{S}_{N}(\mathbf{S}_{0}^{-1} \mathbf{m}_{0} + \sum_{n=1}^{N} (t_{n}-\frac{1}{2})\mathbf{\phi}_{n})

\mathbf{S}_{N}^{-1} = \mathbf{S}_{0}^{-1} + 2 \sum_{n=1}^{N} \lambda(\xi_{n})\mathbf{\phi}_{n} \mathbf{\phi}_{n}^{T}

10.6.2. Optimizing the variational parameters

변분 매개변수의 재추정은 EM 알고리즘으로 이루어지며, 다음과 같다.

\xi_{n, new}^{2} = \mathbf{\phi}_{n}^{T} \mathbb{E}[\mathbf{w}\mathbf{w}^{T}] \mathbf{\phi}_{n}

10.6.3. Inference of hyperparameters

초매개변수에 대한 변분 추론도 q(\mathbf{w}, \alpha) = q(\mathbf{w})q(\alpha)를 이용해서 똑같이 할 수 있다.

10.7. Expectation Propagation

기댓값 전파 알고리즘은 다음과 같다. p(\mathcal{D}, \mathbf{\theta}) = \prod_{i} f_{i}(\mathbf{\theta}), q(\mathbf{\theta}) = \frac{1}{Z} \prod_{i} \tilde{f}_{i} (\mathbf{\theta})일 때

  1. \tilde{f}_{i}(\mathbf{\theta})를 초기화한다.
  2. q(\mathbf{\theta}) \propto \prod_{i} \tilde{f}_{i}(\mathbf{\theta})로 초기화한다.
  3. 수렴할 때까지 다음을 반복한다:
    \tilde{f}_{j}(\mathbf{\theta})를 선택한다.
    – 사후분포를 이로 나누어 q_{-j}(\mathbf{\theta}) = \frac{q(\mathbf{\theta})}{\tilde{f}_{j}(\mathbf{\theta})}를 만든다.
    – 새 사후분포를 q_{-j}(\mathbf{\theta})f_{j}(\mathbf{\theta})로 만든다. 이 때 f_{j}가 새 인자가 된다.
  4. p(\mathcal{D}) \simeq \int \prod_{i} \tilde{f}_{i}(\mathbf{\theta}) d \mathbf{\theta}으로 근사한다.

10.7.1. Example: the clutter problem

기대값 전파로 클러터 문제를 풀 수 있다.

10.7.2. Expectation propagation on graphs

그래프 모델에서의 기대값 전파 알고리즘은 메시지 전파와 비슷하게 이루어진다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중