12. Continuous Latent Variables

잠재 변수가 연속적인 경우를 알아보자. 가장 간단한 모델은 잠재 변수와 관측 변수가 모두 가우시안인 경우이다. 이는 주성분 분석이나 인자 분석같은 방법의 확률적 표현을 가능케 한다.

12.1. Principal Component Analysis

주성분 분석은 차원 감소, 데이터 압축, 특성 추출, 데이터 시각화 등에 쓰인다.

12.1.1. Maximum variance formulation

주성분 분석에서 유도되는 정사영에 수직이 되는 열공간은 주방향 또는 주성분이라 하며, 사영된 데이터들의 분산을 최대화시킨다.

12.1.2. Minimum-error formulation

주성분 분석은 변환에 대한 평균 재구축 오차를 최소화시킨다.

12.1.3. Applications of PCA

주성분 분석은 데이터 압축, 데이터 전처리 등에 쓰인다.

12.1.4. PCA for high-dimensional data

데이터 차원이 지나치게 클 경우엔 \mathbf{X}\mathbf{X}^{T}에 대해 계산을 해서 복잡도를 O(D^{3})에서 O(N^{3})로 줄일 수 있다.

12.2. Probabilistic PCA

주성분 분석은 확률적 잠재 변수 모델에 대한 최대가능도해로 볼 수도 있는데, 이것을 확률적 주성분 분석이라 한다. 이는 가우시안을 표현할 수도 있고, 기대값 최대화 알고리즘을 적용할 수도 있고, 유실된 데이터를 다룰 수도 있고, 혼합 모델도 학습할 수 있고, 베이지안적 적용을 할 수도 있고, 다른 확률밀도 모델과 비교할 수도 있고, 분류 문제에도 쓸 수 있고, 생성적 모델로도 활용할 수 있다.

12.2.1. Maximum likelihood PCA

Theorem. 인자 분석 모델에서 \mathbf{\Psi} = \sigma^{2} \mathbf{I}인 경우, 관측 데이터 로그 가능도는 \mathbf{C} = \mathbf{W}\mathbf{W}^{T} + \sigma^{2} \mathbf{I}, \mathbf{S} = \frac{1}{N} \sum_{i=1}^{N} (\mathbf{x}_{i} - \mathbf{\mu})(\mathbf{x}_{i}-\mathbf{\mu})^{T} = \frac{1}{N}\mathbf{X}^{T} \mathbf{X}로 놓았을 때 \log p(\mathbf{X} | \mathbf{W}, \sigma^{2}) = -\frac{N}{2} \ln \lvert \mathbf{C} \rvert - \frac{1}{2} \sum_{i=1}^{N} (\mathbf{x}_{i} - \mathbf{\mu})^{T} \mathbf{C}^{-1} (\mathbf{x}_{i} - \mathbf{\mu}) = -\frac{N}{2} \ln \lvert \mathbf{C} \rvert + \mathrm{tr}(\mathbf{C}^{-1} \hat{\mathbf{\Sigma}})가 된다. 이 로그 가능도의 최대값을 발생시키는 값은 \mathbf{R}이 임의의 L x L 직교행렬, \mathbf{V}\mathbf{S}의 첫 L개의 고유벡터, \mathbf{\Lambda}는 그에 대응하는 고유값의 대각행렬일 때 \hat{\mathbf{W}} = \mathbf{V}(\mathbf{\Lambda} - \sigma^{2} \mathbf{I})^{\frac{1}{2}} \mathbf{R}가 된다. 또한, 노이즈 분산의 최대가능도추정은 \hat{\sigma}^{2} = \frac{1}{D-L}\sum_{j=L+1}^{D} \lambda_{j}로, 선택되지 못한 축들의 분산들의 평균값이 된다.

위의 정리에서 \sigma^{2} \to 0이면 \mathbf{W} \to \mathbf{V}가 되어 고전적 주성분 분석과 같아짐을 알 수 있다. \hat{\mathbf{Z}}는 어떤가? 잠재 인자에 대한 사후분포는 \hat{\mathbf{F}} = \hat{\mathbf{W}}^{T}\hat{\mathbf{W}} + \hat{\sigma}^{2}\mathbf{I}로 놓을 때 p(\mathbf{z}_{i} | \mathbf{x}_{i}, \hat{\mathbf{\theta}}) = \mathcal{N}(\mathbf{z}_{i} | \hat{\mathbf{F}}^{-1}\hat{\mathbf{W}}^{T} \mathbf{x}_{i}, \sigma^{2} \hat{\mathbf{F}}^{-1})이 된다. 그러므로 \sigma^{2} \to 0이면 \hat{\mathbf{W}} \to \mathbf{V}, \hat{\mathbf{F}} \to \mathbf{I}, \hat{\mathbf{z}}_{i} \to \mathbf{V}^{T} \mathbf{x}_{i}이다. 그러므로 잠재 인자의 사후평균은 데이터를 \mathbf{V}의 열공간에 정사영시킨 값이 되는데, 이는 고전적 주성분 분석에서 얻을 수 있는 결과와 같은 것이다.

12.2.2. EM algorithm for PCA

주성분 분석 모델을 피팅할 때는 보통 고유벡터나 특이값 분해를 사용하지만 기대값 최대화 알고리즘도 쓸 수 있다. \tilde{\mathbf{Z}}를 사후평균을 담는 L x N 행렬이라 하고 \tilde{\mathbf{X}} = \mathbf{X}^{T}은 원본 데이터를 담는다고 하면 \sigma^{2} = 0일 때 \tilde{\mathbf{Z}} = (\mathbf{W}^{T} \mathbf{W})^{-1} \mathbf{W}^{T} \tilde{\mathbf{X}}이다. 이것은 데이터를 단순히 정사영한 것이며 이것만으로 E 단계가 끝난다.

M 단계는 \tilde{\mathbf{W}} = [\sum_{i} \mathbf{x}_{i} \mathbb{E} [\mathbf{z}_{i}]^{T}][\sum_{i} \mathbb{E}[\mathbf{z}_{i}] \mathbb{E} [\mathbf{z}_{i}]^{T}]^{-1}이 된다. 이는 선형 회귀의 최대가능도추정과 형태가 비슷한데, 이로부터 M 단계는 선형 회귀에서 관측된 입력을 잠재 변수의 기대값으로 대체한 것이라 볼 수 있다.

12.2.3. Bayesian PCA

주성분 분석에서 \mathbf{W}의 열 각각에 가우시안 사전분포를 도입해서 베이지안 분석을 할 수도 있다.

12.2.4. Factor analysis

관측 데이터가 연속적인 경우 가능도에도 가우시안을 쓸 수 있다. 선형 회귀와 같이 분포의 평균값이 입력에 대해 선형이라고 하면 p(\mathbf{x}_{i} | \mathbf{z}_{i}, \mathbf{\theta}) = \mathcal{N}(\mathbf{W}\mathbf{z}_{i} + \mathbf{\mu}, \mathbf{\Psi})의 식이 유도되는데, 여기서 \mathbf{W}는 D x L 행렬로 인자 부하 행렬, \mathbf{\Psi}는 D x D 공분산 행렬이며 잠재변수간 상관 관계를 \mathbf{z}_{i} 만으로 표현하기 위해서 공분산은 대각행렬로 잡는다. 이를 인자 분석(FA)라 한다.

12.3. Kernel PCA

주성분 분석은 표본공분산 \mathbf{S} = \frac{1}{N} \mathbf{X}^{T} \mathbf{X}을 이용해 저차원 선형 사영을 계산할 수 있는 방법이다. 하지만 그 대신에 내적행렬 \mathbf{X} \mathbf{X}^{T}을 이용해 계산할 수도 있다. 이는 커널 트릭을 이용해 비선형 사영을 계산하는 것인데 이를 커널 주성분 분석이라 한다.

12.4. Nonlinear Latent Variable Models

비선형 잠재 변수 모델을 알아보자.

12.4.1. Independent component analysis

이야기하는 사람으로 꽉 찬 방에서 각각의 목소리들을 구별해야 한다고 하자. 이것은 칵테일 파티 문제라고 하며 암묵 신호 분리 또는 암묵 음원 분리 문제의 예이다. \mathbf{x}_{t} \in \mathbb{R}^{D}를 시점 t에서의 센서가 관측한 신호, \mathbf{z}_{t} \in \mathbb{R}^{D}을 음원이 보낸 신호라고 놓고 혼합 행렬 \mathbf{W}, 노이즈 \mathbf{\epsilon}_{t} \sim \mathcal{N}(\mathbf{0}, \mathbf{\Psi})에 대해 \mathbf{x}_{t} = \mathbf{W}\mathbf{z}_{t} + \mathbf{\epsilon}_{t}로 가정하자. 이 때 각각의 시점은 독립된 관측으로 가정한다.

목표는 음원이 보낸 신호 p(\mathbf{z}_{t} | \mathbf{x}_{t}, \mathbf{\theta})을 구하는 것이다. 이것은 인자 분석 모델과 같다. L = D이면 (즉, 센서의 수가 음원의 수가 같다면) 혼합 행렬은 정사각행렬이며, 노이즈가 없다면 혼합 행렬의 직교성을 요구하지 않는 주성분 분석과 같다. 하지만 주성분 분석과는 사전분포를 다르게 두는데, 주성분 분석에서는 각각의 음원이 독립적이고 가우시안 사전분포를 따른다고 가정해서 p(\mathbf{z}_{t}) = \prod_{j=1}^{L} \mathcal{N}(z_{tj} | 0, 1)로 놓지만 이 문제에서는 각각의 음원들은 독립적이지만 비 가우시안 사전분포를 따른다고 가정해서 p(\mathbf{z}_{t}) = \prod_{j=1}^{L} p_{j}(z_{tj})로 놓는다. 이 때 음원들의 분포의 분산의 값은 혼합 행렬로 흡수시킬 수 있으므로 일반성을 잃지 않고 1로 통일시킬 수 있다. 이 모델을 독립 목표는 음원이 보낸 신호 p(\mathbf{z}_{t} | \mathbf{x}_{t}, \mathbf{\theta})을 구하는 것이다. 이것은 인자 분석 모델과 같다. L = D이면 (즉, 센서의 수가 음원의 수가 같다면) 혼합 행렬은 정사각행렬이며, 노이즈가 없다면 혼합 행렬의 직교성을 요구하지 않는 주성분 분석과 같다. 하지만 주성분 분석과는 사전분포를 다르게 두는데, 주성분 분석에서는 각각의 음원이 독립적이고 가우시안 사전분포를 따른다고 가정해서 p(\mathbf{z}_{t}) = \prod_{j=1}^{L} \mathcal{N}(z_{tj} | 0, 1)로 놓지만 이 문제에서는 각각의 음원들은 독립적이지만 비 가우시안 사전분포를 따른다고 가정해서 p(\mathbf{z}_{t}) = \prod_{j=1}^{L} p_{j}(z_{tj})로 놓는다. 이 때 음원들의 분포의 분산의 값은 혼합 행렬로 흡수시킬 수 있으므로 일반성을 잃지 않고 1로 통일시킬 수 있다. 이 모델을 독립 성분 분석(ICA)라 한다.

12.4.2. Autoassociative neural networks

신경망 또한 차원 감소에 활용할 수 있다. 이를 자동 연상 신경망이라 한다.

12.4.3. Modeling nonlinear manifolds

비선형 구조를 모델링하는 방법은 선형 모델의 결합으로, 또는 단일 비선형 모델로 나타내는 것이다. 이 경우 데이터를 저차원 공간에 사영시키는 데 주성분 분석이 쓰이기도 한다. 국소 선형 껴묻기 또는 등장 특성 매핑 등의 방법도 쓰인다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중