19. Approximate Inference

많은 확률 모델은 추론이 어려워서 학습도 어렵다. 은닉층이 여러 개인 많은 그래프 모델은 사후분포가 계산 가능하지 않다. 이 장에서는 근사 추론 방법을 알아본다.

19.1. Inference as Optimization

추론이 어려울 때 대처하는 방법은 정확한 추론을 최적화 문제로 보는 것이다. 로그가능도를 직접 계산하는 대신 그 하한인 증거도 하한(ELBO) 또는 변분 자유 에너지 \log p(\mathbf{v}; \mathbf{\theta}) - D_{KL} (q(\mathbf{h} | \mathbf{v}) \lVert p(\mathbf{h} | \mathbf{v} ; \mathbf{\theta}))를 계산해 이를 최대화하는 것이다. 증거도 하한은 q의 선택에 상관없이 로그가능도에 대한 하한이 되고, 정확한 추론은 증거도 하한을 최대화시킨다.

19.2. Expectation Maximization

하한을 최대화하는 방법으로 기대값 최대화(EM) 알고리즘이 있다. 이는 q(\mathbf{h}_{i} | \mathbf{v}) = p(\mathbf{h}_{i} | \mathbf{v}_{i} ; \mathbf{\theta}_{0})을 정의하는 E-단계\sum_{i} \mathcal{L}(\mathbf{v}_{i}, \mathbf{\theta}, q)을 최대화하는 M-단계를 수렴할 때까지 번갈아 반복하는 최적화 방법이다. 잠재 변수 모델에 대한 추계적 경사 하강법은 기대값 최대화 알고리즘의 일부로 볼 수 있다. 이는 근사 추론으로도 볼 수 있다. 기대값 최대화 알고리즘은 모델 매개변수를 업데이트해 가능도를 증가시키는 것이다. 이 때 은닉 변수는 사후분포의 추정값에 의해 값이 정해진다. 또한 매개변수가 달라져도 q는 그대로 쓸 수 있다.

19.3. MAP Inference and Sparse Coding

\mathbf{h}^{\ast} = \mathrm{argmax}_{\mathbf{h}} p(\mathbf{h} | \mathbf{v})을 계산하는 것을 최대사후확률추론이라 한다. 이는 대개 근사 추론이 아니라 \mathbf{h}^{\ast}에 대한 정확한 추론이지만, \mathcal{L}(\mathbf{v}, \mathbf{h}, q)을 최대화시킬 때에는 이는 q의 최적값을 제공하지 않으므로 근사 추론이라 볼 수 있다. q(\mathbf{h} | \mathbf{v}) = \delta(\mathbf{h} - \mathbf{\mu})로 놓으면 이는 \mathbf{\mu}^{\ast} = \mathrm{argmax}_{\mathbf{\mu}} \log p(\mathbf{h} = \mathbf{\mu}, \mathbf{v})의 최적화 문제로 환원된다. 이는 기대값 최대화와 비슷한 학습 과정으로 볼 수 있다. 희박 암호화는 은닉 유닛에 희박성을 유도하는 사전분포이다. 흔히 분해되는 라플라스 사전분포를 쓴다. p(\mathbf{h} | \mathbf{v})를 계산하거나 표현하는 것은 어렵기 때문에, 최대사후확률추정을 하거나 증거도 하한을 최대화함으로써 이를 근사할 수 있다. 학습 데이터의 은닉 벡터와 가측 벡터를 행렬로 이어붙여 최적화를 수행할 수도 있다. 이 때 손실 함수의 최소화는 이 두 행렬을 번갈아 최적화하는 것으로 수행 가능하다.

19.4. Variational Inference and Learning

증거도 하한 최대화 등은 변분 추론의 일종이다. 변분 학습의 핵심 발상은 \mathcal{L}을 제한된 분포 q에 대해 최대화하는 것으로 충분하다는 것이다. 이것을 인수분해되는 것으로 선택하는 것을 평균 장 방법이라 하고, 그래프 모델에 대해 이를 일반화한 것을 구조화된 변분 추론이라 한다. 변분 추론의 이점은 q의 매개화 형태를 특정할 필요가 없다는 점이다. 증거도 하한을 최대화하는 것은 KL 발산을 최소화하는 것으로 볼 수 있다.

19.4.1. Discrete Latent Variable

이산잠재변수에 대한 변분 추론은 더 쉽다. 근사 분포의 각 분해를 이삱 상태에 대해 구한 뒤 각 매개변수를 최적화하기만 하면 된다. 이는 루프의 맨 안쪽에서 행해지는 최적화이므로 매우 빨라야 한다. 대개 이진 희박 암호화 모델에 대한 평균 장 근사가 쓰인다. 블록 업데이트에 대해서는 감쇠를 준다.

19.4.2. Calculus of Variations

변분 학습에는 변분 미적분법이 쓰인다. 이는 함수의 함수인 함수족 J[f]를 정의하고 이에 대한 함수도함수(변분도함수)를 정의해 이를 최적화하는 것이다. 이 때의 식을 오일러-라그랑주 방정식이라 한다.

19.4.3. Continuous Latent Variables

그래프 모델이 연속된 잠재변수를 가지더라도 증거도 하한을 최대화시켜 변분 추론을 할 수 있다. 다만 변분법을 써야만 한다.

19.4.4. Interactions between Learning and Inference

학습 알고리즘의 일부분으로 근사 추론을 쓰는 것은 학습 과정에도 영향을 미치고, 추론 알고리즘의 정확도에도 영향을 미친다. 구체적으로, 학습 알고리즘은 모델을 근사 추론이 근거하는 근사 가정들에 적응하도록 바꾼다. 이 동작은 근사 가정들을 자가충족적이도록 하므로, 변분 근사를 함으로써 모델에 끼치는 손해를 측정하는 것은 매우 어렵다.

19.5. Learned Approximate Inference

추론은 증거도 하한의 값을 증가시키는 최적화 과정으로 볼 수 있다.

19.5.1. Wake-Step

\mathbf{v}로부터 \mathbf{h}를 추론하는 모델을 학습하는 어려움은 이를 학습할 지도학습 집합이 없다는 것이다. 잠-깨우기 알고리즘은 \mathbf{h}\mathbf{v}를 모델 분포에서 모두 샘플링해서 이를 해결한다.

19.5.2. Other Forms of Learned Inference

학습된 근사 추론 방법은 다른 모델에도 쓸 수 있다. 최근 들어 학습된 근사 추론은 생성적 모델에 널리 쓰인다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중