13. Linear Factor Models

이 장에서는 잠재 변수가 있는 간단한 확률 모델을 다룬다. 잠재 인자 모델은 선형변환에 노이즈를 추가해 입력을 생성하는 추계적 선형 복호화 함수를 사용함으로써 정의된다. 이는 단순한 결합분포를 가진 설명적 인자를 발견할 수 있기 때문에 흥미롭다. 이는 \mathbf{h} \sim p(\mathbf{h})일 때 \mathbf{x} = \mathbf{W} \mathbf{h} + \mathbf{b} + noise로 정의돈다.

13.1. Probabilistic PCA and Factor Analysis

인자 분석은 잠재 변수가 단위 분산 가우시안 \mathbf{h} \sim \mathcal{N}(\mathbf{h} ; \mathbf{0}, \mathbf{I})인 경우이다. 이 때 관측된 변수는 조건부독립인 경우이다. 잠재 변수의 역할은 관측된 변수간 의존성을 찾는 것이다. 이 때 \mathbf{x} \sim \mathcal{N}(\mathbf{x}; \mathbf{b}, \mathbf{W}\mathbf{W}^{T} + \mathbf{\phi})이다. \mathbf{\phi} = \sigma^{2} \mathbf{I}인 경우를 확률적 주성분 분석이라 한다. 이는 데이터의 분산 대부분이 작은 잔여 재구축 오차 \sigma^{2}에 대해 잠재 변수에 의해 포착될 수 있음을 이용한다.

13.2. Independent Component Analysis (ICA)

독립 성분 분석(ICA)는 선형 인자를 모델링해 관측된 신호를 스케일해 더하면 원본 데이터가 되는 여러 신호로 분해하는 것이다. 이 때 각 분리된 성분들은 완전 독립으로 친다. 이는 n명의 사람들이 이야기하고 있을 때 n명 각각의 목소리의 방향을 예측하거나 하는 데 쓸 수 있다. 독립 성분 분석에는 여러 변형이 가능하지만, 모두 p(\mathbf{h})가 비가우신이 됨을 요구한다. 왜냐하면 가우시안이 되도록 하면 \mathbf{W}가 식별 불가능해지기 때문이다. 독립 성분 분석의 변형들 대부분은 생성적 모델이 아니다. 독립 성분 분석은 비선형 생성적 모델로 일반화될 수 있으며, 이 중 하나로는 비선형 독립 성분 추정(NICE)이 있다. 이는 자코비안이 효율적으로 계산될 수 있는 가역 변환 여러 개를 쌓아 데이터를 인수분해 가능한 주변분포로 변환한다. 독립 성분 분석의 또 다른 예는 그룹 안에서는 의존성이 있지만 그룹간에는 없는 특성을 배우는 것이다. 그룹들이 겹치지 않으면 이를 독립 부분공간 분석이라 한다. 자연 이미지에 적용되었을 경우 이를 위상적 독립 분석이라 한다.

13.3. Slow Feature Analysis

느린 특성 분석(SFA)는 시간 신호의 정보를 사용해 불변 특성을 학습하는 선형 인자 모델이다. 이는 장면에 대한 묘사가 바뀔 때 장면의 중요한 특성은 느리게 바뀐다는 아이디어에 기반한다. 이 역시 생성적인 모델이라고 할 순 없다. 이 때 학습된 특성은 인식불가능성을 해결하기 위해 평균이 0이어야 한다. 느린 특성 분석은 적용 전 비선형 기저 확장을 적용해 비선형 특성을 학습하는 데도 쓰인다. 자연 경관의 작은 공간적 패치를 학습했을 때는 이는 V1 코르텍스의 복잡 세포와 비슷한 특성들을 학습하는 것으로 알려져 있다. 느린 특성 분석의 이득은 느린 특성 분석이 학습할 특성들을 이론적으로 예측할 수 있다는 것이다. 이는 물체 인식이나 자세 예측에도 쓰인다.

13.4. Sparse Coding

희박 코딩은 비지도 특성 학습과 특성 추출 메커니즘에 대해 많이 연구된 선형 인자 모델이다. 이는 p(\mathbf{x} | \mathbf{h}) = \mathcal{N}(\mathbf{x}; \mathbf{W} \mathbf{h} + \mathbf{b}, \frac{1}{\beta}\mathbf{I})를 사용한다. p(\mathbf{h})는 인수분해된 라플라스, 코시, 스튜던트 t-분포 등이 쓰인다. 최대가능도추정은 계산 불가능하므로, 학습은 데이터 인코딩과 디코더 학습을 번갈아서 수행한다. 이 때 인코더는 \mathbf{h}에 대한 L^{1} 노름을 최적화하므로 희박 코딩을 유도한다. 추론만 하는 것 대신 \mathbf{h}\mathbf{W}를 번갈아 최소화시킬 수 있다. 비매개적 인코더의 사용과 결합한 희박 코딩 접근법은 이론적으론 어떤 매개화된 인코더보다도 재구성오차와 로그 사전분포를 최소화시킬 수 있다. 또한, 인코더에 일반화 오차도 없다. 비매개적 인코더의 가장 큰 단점은 반복적 알고리즘이기 때문에 \mathbf{h}를 계산하는 데 오랜 시간이 걸린다는 점이다. 또한, 역전파가 어렵다는 점도 있다. 희박한 코딩은 다른 선형 인자 모델과 같이 형편없는 표본을 내기도 한다. 이는 특성 각각은 잘 학습되었을지 몰라도 그 특성들이 무작위로 선택되었을 수 있기 때문이다. 이를 위해서는 모델의 깊이나 용량을 늘리는 수밖에 없다.

13.5. Manifold Interpretation of PCA

PCA와 인자 분석을 포함하는 선형 인코더 모델은 다양체의 모양을 학습하는 것으로 표현될 수 있다. 선형 인자 모델은 데이터의 표현을 학습할 수 있는 가장 간단한 모델들 중 하나이며 가장 간단한 생성적 모델이기도 하다. 많은 선형 분류기와 선형 회귀 모델은 심층 피드포워드 망으로 확장될 수 있으며 이런 선형 인자 모델들은 더 강력한 자가부호화기 모델이나 심층 확률적 모델로 확장될 수 있다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중