14. Autoencoders

자가암호화기는 입력을 출력으로 복제하도록 학습된 신경망이다. 이는 입력을 표현하는 코드인 은닉층 \mathbf{h}를 갖고, 암호화 함수 \mathbf{h}=f(\mathbf{x})와 복호화 함수 \mathbf{r} = g(\mathbf{h})로 구성된다. 현대적인 자가암호화기는 이를 결정론적 함수에서 추계적 함수로 확장한다. 전통적으로는 차원 축소나 특성 학습에 쓰였으나, 최근엔 생성적 모델링에도 쓰이고 있다.

14.1. Undercomplete Autoencoders

자가암호화기 학습의 목적은 은닉층에 쓸모있는 성질을 만드는 것이다. 한 방법은 은닉층의 차원을 입력보다 줄이는 과소완성 상태가 있다. 학습은 손실 함수 L(\mathbf{x}, g(f(\mathbf{x})))을 최소화하는 식으로 이루어진다. 암호화 함수가 선형이고 손실 함수가 평균제곱오차면 이는 주성분 분석과 같다. 암호화 함수와 복호화 함수가 비선형이면 주성분 분석에 대한 좋은 일반화가 된다.

14.2. Regularized Autoencoders

암호화 함수나 복호화 함수의 용량이 너무 크다면 과소완성 자가암호화기는 별 쓸모가 없다. 비슷한 문제는 은닉층의 차원이 입력 이상인 과대완성 상태에서도 발생한다. 이상적으로는 정규화 자가암호화기를 통해 자가암호화기의 구조를 성공적으로 학습할 수 있다. 잠재 변수와 추론 과정이 있는 모든 생성적 모델은 자가암호화기로 볼 수도 있다.

14.2.1. Sparse Autoencoders

희박 자가암호화기는 암호 은닉층에 희박성 징벌 항을 추가한 자가암호화기이다. 이는 분류 등의 작업에 쓰인다. 이 징벌 항은 신경망에 추가되어 입력을 출력으로 복사하는 것뿐만 아니라 다른 지도학습도 수행하는 정규화 항으로 볼 수 있다. 희박 징벌항을 복사 작업에 대한 정규화자로 보는 대신, 전체 희박 자가암호화기를 잠재 변수를 가진 생성적 모델의 근사적 최대가능도학습으로 보면 된다. 초기의 희박 자가암호화기는 표준화 상수를 최소화하는 방향으로 진행되었다. 이후에는 정류 선형 유닛을 썼다.

14.2.2. Denoising Autoencoders

비용 함수에 징벌 항을 추가하는 대신, 비용 함수의 재구축 오차 항을 변경할 수도 있다. 잡음제어 자가암호화기(DAE)는 입력에 노이즈가 추가된 L(\mathbf{x}, g(f(\tilde{\mathbf{x}})))을 최소화한다. 이는 복호화시에 노이즈 제거도 수행해야 한다.

14.2.3. Regularizing by Penalizing Derivatives

다른 정규화 방식은 징벌항을 도함수의 크기의 합으로 두는 것이다. 이를 수축적 자가암호화기라 한다.

14.3. Representational Power, Layer Size and Depth

자가암호화기의 암호화/복호화 층은 단일 층일수도 있지만 여러 층일수도 있다. 이는 피드포워드 망의 이점인 보편적 근사 함수의 성질을 누릴 수 있다. 또한 어떤 함수들의 연산 비용도 줄일 수 있다. 실험적으로 심층 자가암호화기는 훨씬 좋은 압축을 보인다. 이를 학습하는 보편적 전략은 얕은 자가암호화기를 탐욕적으로 반복 학습해서 합치는 것이다.

14.4. Stochastic Encoders and Decoders

자가암호화기는 피드포워드 망이므로 전통적으로 쓰이는 손실 함수나 출력 유닛은 그대로 쓰일 수 있다. 단 입력과 대상이 같다는 것이 다르다. 추계적으로 보면 이 암호화 함수암호화 분포로 확장해 생각할 수 있다. 일반적으로는 암호화/복호화 함수는 유일한 결합분포와 호환되는 조건분포일 필요는 없다.

14.5. Denoising Autoencoders

잡음제거 자가암호화기(DAE)는 오염된 데이터를 입력으로 받고 잡음이 제거된 데이터를 출력하도록 학습된 자가암호화기이다. 이는 재구축 분포를 일반적으로 경사 기반 최적화로 학습한다.

14.5.1. Estimating the Score

최대가능도추정 대신 각 학습 데이터에 대한 데이터 분포인 점수를 정해 이를 추정하는 방법도 있다. 잡음제거 자가암호화기의 중요한 특성은 이 학습 기준(조건부 가우시안을 쓰는)을 통해 자가암호화기가 데이터 분포의 점수를 추정하는 벡터장을 학습한다는 것이다. 이는 잡음제거 점수 매칭을 쓰는 제한된 볼츠만 기계의 유형으로 볼 수 있다. 또한, 수축적 제한된 볼츠만 기계로도 볼 수 있다. 연속된 입력에 대해서는, 오염 함수와 재구축 분포에 가우시안을 쓰는 잡음 제거 기준은 일반적인 암호화/복호화 매개화에 적용가능한 점수 추정을 구성한다. 일반적으로는 재구축과 입력의 차가 어떤 함수의 경사가 된다는 보장은 없다. 자가암호화기는 확률분포를 학습할 뿐만 아니라 생성적 모델을 표현할 수도 있다.

14.5.1.1. Historical Perspective

다층 퍼셉트론을 통해 잡음 제거를 하는 것은 1987년으로 거슬러 올라간다. 초기에는 선형 함수를 썼다.

14.6. Learning Manifolds with Autoencoders

자가암호화기는 데이터가 저차원 다양체 주위에 몰려 있다는 성질을 이용한다. 다양체를 표현하는 중요한 방법은 접평면들의 집합으로 이를 표현하는 것이다. 모든 자가암호화기는 이를 학습한다. 중요한 법칙은 자가암호화기는 학습 표본을 재구축하는데 필요한 변화들만을 표현할 수 있다는 것이다. 이러한 자가암호화기의 특성은 다양체의 표현식을 학습하는 데 특히 유용하다. 다양체 학습은 많은 비지도학습에 쓰이며 최근방 그래프에 기반한 비매개적 방식으로부터 시작되었다. 이 상황에서는 선형계를 최적화함으로써 전역 좌표계를 얻을 수 있다. 다양체가 매끄럽지 않을 경우 학습에는 많은 표본이 필요하다는 단점이 있다.

14.7. Contractive Autoencoders

수축적 자가암호화기는 정규화자를 통해 도함수를 최소화하도록 유도한다. 입력 가우시안 노이즈가 작으면 잡음 제거 재구축오차는 재구축 함수에 대한 수축적 징벌항과 같다. 수축적이라는 표현은 수축적 자가암호화기가 공간을 비트는 방식에서 유래한다. 이 수축성은 국소적이며, 이 자코비안 행렬은 비선형 암호화를 선형 연산자로 근사하는 것으로 생각할 수 있다. 이는 재구축 오차와 수축 징벌항간 트레이드오프를 균형을 맞춘다. 최종 목적은 데이터의 다양체 구조를 학습하는 것이다. 이는 심층 자가암호화기에 대해서는 연산량이 급증한다는 ㄷ나점이 있다. 또한, 복호화 함수의 용량이 충분하지 않으면 의미가 없다.

14.8. Predictive Sparse Decomposition

예측적 희박 분해(PSD)는 희박 암호화와 매개화된 자가암호화기의 혼성이다. 이는 복호화기를 정규화하며, 학습된 근사 추론의 예로 볼 수 있다. 실제로 반복적 최적화는 학습 시점에만 수행된다.

14.9. Applications of Autoencoders

자가암호화기는 차원 축소와 정보 검색 작업에 성공적으로 응용되었다. 분류 작업 등 여러 작업에 저차원 표현은 유용하다. 정보 검색 작업에도 이는 의미론적 해싱 등의 기법을 통해 유용히 쓰일 수 있다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중