16. Structured Probabilistic Models for Deep Learning

구조화된 확률 모델을 알아보자. 이는 그래프 모델로도 불리며, 여러 종류가 있다.

16.1. The Challenge of Unstructured Modeling

비구조화된 모델링에는 여러 난점이 존재한다. 분류 같은 경우가 아니라 밀도 추정, 잡음 제거, 유실 값 전가, 샘플링 등에는 엄청난 수의 확률변수가 존재한다. 이들 간의 관계를 구조화하지 않으면 메모리나 통계적 효율성, 수행 시간(추론/샘플링 모두) 실현 불가능해진다. 따라서 인자간 인과 관계를 가정해 모델링하는 것은 중요하다.

16.2. Using Graphs to Describe Model Structure

확률 모델의 구조화는 그래프를 사용한다.

16.2.1. Directed Models

방향그래프를 쓰는 모델을 방향그래프 모델, 믿음 망, 베이지안 망이라고 한다. 각 간선은 조건부 확률분포를 나타낸다. 각 변수가 그래프 내 소수의 부모만 갖도록 강제함으로써 모델의 매개변수 수를 극적으로 줄일 수 있다. 그래프로 모델링할 수 있는 것은 변수가 각각에 대해 조건부독립일 경우뿐이다.

16.2.2. Undirected Models

비방향그래프를 쓰는 모델을 비방향그래프 모델, 마르코프 무작위 장, 마르코프 망이라고 한다. 이 경우 모든 연결된 확률변수간에는 일방적인 관계가 아니라 상호적인 관계가 성립한다. 그래프 내 각 클리크에 대해, 인자(클리크 잠재)가 클리크 내 변수간 친화도를 측정한다. 이를 통해 이 친화도의 곱인 비표준 확률 분포를 정의한다.

16.2.3. The Partition Function

비표준 확률 분포의 문제는 총합이 1이라는 보장이 없다는 것이다. 이를 1로 만드는 표준화 상수 Z는 모든 변수들의 가능한 결합에 대해 구해야 하기 때문에 대개 계산 불가능하다. Z 자체가 존재하지 않을 수도 있다. 방향그래프 모델과 비방향그래프 모델의 핵심적 차이는 방향그래프 모델은 확률분포로부터 직접 정의되지만 비방향그래프모델은 확률분포로 변환될 수 있는 함수들에 의해 느슨하게 정의된다는 것이다.

16.2.4. Energy-Based Models

비방향그래프모델의 일종으로 에너지 함수 E(\mathbf{x})에 대한 에너지 기반 모델 \tilde{p}(\mathbf{x}) = e^{-E(\mathbf{x})}이 있다. 이의 예로는 볼츠만 분포를 쓰는 볼츠만 기계가 있다. e^{a} e^{b} = e^{a+b}이므로, 에너지 기반 모델은 에너지 함수 내 합을 클리크로 분해하는 마르코프 망의 특수한 경우일 뿐이다. 그러므로 이를 전문가 곱이라 부르기도 한다. 꼭 e^{-E(\mathbf{x})}이 아니라 e^{E(\mathbf{x})} 을 써도 상관없다. 이 경우 조화 함수라고 한다. 에너지 기반 모델은 많은 경우 모델의 로그 함수인 자유 에너지에도 관심이 있다.

16.2.5. Separation and D-Separation

변수간 직접 관계가 아니라 간접 관계를 알아야 할 때도 있다. 이 때 그래프 내 조건부독립을 격리라 하며 이로 분리된 변수 집합을 격리되었다 한다. 방향그래프모델에서는 d-격리를 대신 쓴다. 격리와 d-격리는 그래프로부터 알 수 있는 조건부독립만에 대해 말해준다. 그래프가 모든 독립조건을 다 안다는 보장은 없다. 맥락 특정 독립성은 그래프로는 나타낼 수도 없다.

16.2.6. Converting between Undirected and Directed Graphs

방향그래프모델과 비방향그래프모델은 각자의 장단점이 있다. 방향그래프모델은 순환이 없어야 하며 이는 비방향그래프모델로 변환시킬 수 있다. 이를 표준화 그래프라 한다. 비방향그래프모델은 순환을 포함하면 방향그래프로 변환시킬 수 없다 (순환 내 이 없는 한). 을 추가한 비방향그래프를 현형 또는 삼각화 그래프라 한다.

16.2.7. Factor Graphs

인자 그래프는 비방향그래프 모델에서 인자 관계를 명시해 모호성을 줄인 것이다.

16.3. Sampling from Graphical Models

그래프 모델에서는 위상정렬을 통해 조상 노드로부터 샘플링을 하는 조상 샘플링이 가능하다. 이는 방향그래프모델에만 가능하다는 단점이 있다. 비방향그래프모델에 대해서는 깁스 샘플링을 대신 쓴다.

16.4. Advantages of Structured Modeling

구조적 모델링의 이점은 연산량과 메모리 소모의 감소이다. 또한, 표현을 학습하는 것을 주어진 지식에 기반한 학습과 분리할 수 있다는 장점도 있다.

16.5. Learning about Dependencies

구조 학습은 그래프 내 변수 중 강하게 연관된 것들 간 연관 관계만을 추리기 위한 작업이다. 가측 변수와 은닉 변수를 설정함을 통해 주변분포를 학습함으로써 이를 이룰 수 있다. 잠재 변수는 주변분포뿐만 아니라 분류 등 고전적인 작업에도 쓸 수 있다.

16.6. Inference and Approximate Inference

그래프 모델의 추론은 대개 NP-난해이므로 많은 경우 근사 추론이 필요하다.

16.7. The Deep Learning Approach to Structured Probabilistic Models

심층 학습은 대개 심층 그래프 모델을 포함하지는 않는다. 그 대신 분산 표현의 발상을 차용한다. 그에 반해, 전통적인 그래프 모델은 최소한그 대신 분산 표현의 발상을 차용한다. 그에 반해, 전통적인 그래프 모델은 최소한 가끔이라도 관측된 변수들을 포함한다. 또한, 잠재 변수가 설계되는 방식과 연결성에 대한 모델링도 심층 학습과는 다르다. 이산적이거나 가우시안인 그래프 모델에 대한 간단한 근사 추론 알고리즘으로는 순환적 믿음 전파가 있다. 그래프 모델에 대한 심층 접근법은 널리 알려져 있지는 않다.

16.7.1. Example: The Restricted Boltzmann Machine

제한된 볼츠만 기계(RBM), 또는 하모니움은 심층 학습에 쓰이는 그래프 모델이다. 이는 자체적으로는 심층 모델이 아니지만 잠재 변수의 단일 층을 표현한다. 이는 블록 깁스 샘플링과 효율적인 미분을 가능케 함으로써 학습을 용이하게 한다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중