15. Representation Learning

이 장에서는 표현을 학습하는 법과 심층 구조를 설계하는 데 있어 표현이 어떻게 유용한지 본다. 많은 정보 처리 작업은 정보가 어떻게 표현되는지에 따라 난이도가 크게 달라진다. 데이터를 표현할 때 어떤 표현이 더 나은가? 지도학습으로 학습되는 피드포워드 망은 표현 학습의 일종으로 볼 수 있다. 이는 학습되는 중간 특성에 대해 명시적으로 조건을 거는 것은 아니다. 많은 표현 학습 문제는 입력의 정보를 보존하는 것과 유용한 특성을 얻는 것간에 트레이드오프가 있다. 표현 학습은 지도학습과 비지도학습을 수행하는 하나의 방법을 제공하므로 의미가 있다.

15.1. Greedy Layer-Wise Unsupervised Pretraining

심층 지도망을 구조적 특정 없이 비지도 선학습(탐욕적 층별 비지도 선학습)시키는 것은 중요하다. 이는 선택한 단일 층 표현 학습 알고리즘에 의존한다. 탐욕적 층별 학습은 심층 신경망의 층들을 결합해 학습하는 어려움을 타개하기 위해 고안되었다. 이는 탐욕적 알고리즘이기 때문에 탐욕적으로 불리고 한 번에 한 층을 학습하므로 층별로 불리며 비지도학습 알고리즘으로 학습되므로 비지도라고 불리고 이후에 미세 조정되어야 하므로 선학습이라 불린다. 선학습 과정과 그 뒤의 지도학습을 통틀어 선학습이라 하기도 한다. 층별 비지도 선학습은 다른 비지도 학습 알고리즘의 시초가 되기도 한다.

15.1.1. When and Why Does Unsupervised Pretraining Work?

탐욕적 층별 비지도 선학습은 분류 작업의 테스트 오차를 많이 개선한다. 이에 적용되는 많은 담론들은 탐욕적 층별 비지도 선학습 이외로 확장되기는 어렵다. 비지도 선학습은 두 가지 서로 다른 발상을 결합하는데, 첫째로는 심층 신경망의 초기 매개변수의 선택이 모델의 정규화 효과를 크게 영향을 미칠 수 있다는 것이고 둘째로는 입력에서 출력으로의 함수를 학습하는 것이 아닌 입력 분포를 학습하는 일반적인 발상을 택한다는 것이다. 이들간엔 알려지지 않은 많은 상호작용이 있다. 비지도 사전학습을 표현 학습으로 보면, 이는 초기 표현이 좋지 않을 때 효과가 있다고 볼 수 있다. 비지도 사전학습을 정규화로 보면, 이는 라벨링된 표본의 수가 적을 때 효과가 있다고 볼 수 있다. 다른 요소들도 관여될 수 있다. 예를 들어 학습할 함수가 매우 복잡할 때라든가. 이는 분류기를 개선시킬 때 많이 쓰인다. 이에 대해서는 많은 실험이 이루어졌는데 사전학습이 심층 학습에 미치는 효과는 최신 기법들 이전에 나왔기 때문에 현재 최신 기법들과 비교해 어떨지는 불확실하다. 다른 비지도학습에 비해, 비지도 사전학습은 두 개의 별도 학습 기간을 가진다는 단점이 있다. 이는 초매개변수도 따로 맞춰야 함을 의미한다. 그래서 요즘은 자연어처리 이외엔 잘 쓰이지 않는다. 요즘엔 드롭아웃과 배치 표준화로 정규화된 지도학습에 기반한 심층 학습 기법과 비지도 사전학습을 일반화한 지도 사전학습이 많이 쓰인다.

15.2. Transfer Learning and Domain Adaptation

전이 학습과 도메인 적응은 한 설정에서 학습된 것이 다른 설정에서의 일반화를 개선하기 위해 이용될 때를 말한다. 전이 학습에서는 학습자는 2개 이상의 다른 작업을 수행해야 하지만, 학습한 설정에서의 변환에 대한 인자가 다른 설정에서의 변환과 연관이 있어야만 의미가 있다. 이런 작업간 공유되는 것들은 입력의 의미가 아니라 출력의 의미일 수도 있다. 도메인 적응에 대해서는 작업은 설정마다 같지만 입력 분포가 달라진다. 연관된 문제는 개념 변화로, 데이터 분포의 시간에 따른 점진적 변화로 인한 전이 학습의 형태로 볼 수 있다. 이들 모든 경우에, 목적은 첫 번째 설정에서의 데이터를 이용해 두 번째 설정에서 학습/추론을 할 때 이득을 취하는 것이다. 이는 몇몇 기계 학습 대회에서 좋은 성능을 보였다. 전이 학습의 두 극단적인 형태는 일표본 학습영표본 학습(무데이터 학습)이 있다. 일표본 학습이 가능한 것은 표현이 첫 단계에서 기반 클래스를 분명히 나눌 수 있기 때문이다. 영표본 학습은 학습시 추가적인 정보가 이용될 수 있어야만 가능하다. 즉, 작업이 어떤 방식으로든 일반화가 가능해야만 한다. 한 언어에서 다른 언어로의 번역 등의 작업에 이를 쓸 수 있다. 이 기법은 최빈값이 여러 개인 표현식을 학습하는 다봉 학습에도 비슷하게 쓰일 수 있다.

15.3. Semi-Supervised Disentangling of Causal Factors

표현 학습에서 중요한 것은 어떤 표현이 더 나은지를 판단하는 것이다. 하나의 척도는 얼마나 모델링하기 쉬운지가 있다. 또한 인과적 요인을 얼마나 잘 설명하는지가 있다. 이 경우 인과적 인자들을 떼어내 모델의 복잡도를 줄일 수 있다. 연구 문제로 중요한 것은 기반 요인의 수가 극히 많을 수 있다는 것이다. 그러므로 완전 탐색 해법은 실제로는 가능하지 않다. 따라서 가장 중요한 요인들만으로 문제를 정의하는 것이 좋다. 요인의 중요성은 여러 방식의 정의가 있으며 이로 인해 생성적 대립쌍 망 등의 접근도 가능하다. 기반 인과적 인자를 학습하는 이득은 생성의 조건부 분포가 기반 인자의 분포의 변화에 대해 강건하다는 것이다.

15.4. Distributed Representation

개념의 분산 표현은 표현 학습의 가장 중요한 도구 중 하나이다. 예로는 n개의 이진 특성의 벡터가 있다. 클러스터링, k-근접 근방, 결정 트리, 가우시안 혼성 등이 모두 이 예이다. 개념의 분산 표현을 상징적 표현식과 구분하는 중요한 특성은 다른 개념간 공유되는 특성으로부터 일반화가 유도된다는 것이다. 예를 들어 개와 고양이는 다르지만 다리의 개수와 털이 있는지 여부는 같다. 이는 복잡한 구조가 적은 개수의 매개변수로 컴팩트하게 표현될 때 가장 이득이 있다. 목적 함수를 잘 잡으면 정규화 효과를 누릴 수도 있다. 또한 모델의 표현력을 유지하면서 필요한 매개변수 개수를 극적으로 줄이는 효과도 있다. 실험으로 보여진 결과는 이를 통해 각 특성을 다른 특성과의 결합 없이 각각 학습할 수 있다는 것이다.

15.5. Exponential Gains from Depth

다층 퍼셉트론은 보편적 근사자이지만, 충분한 깊이가 주어져야 한다. 하지만 분산 표현을 통해 매개변수 개수를 줄이는 효과를 누리면 이를 완화할 수 있다. 이 예 중 하나로 합-곱 망이 있다. 다른 흥미로운 응용은 심층 망을 근사하는 얕은 망을 통한 지수적 이득을 통해서 심층 망을 학습하는 것이다.

15.6. Providing Clues to Discover Underlying Causes

어떤 표현이 다른 표현보다 더 나은가? 여러 척도가 있다. 매끄러움, 선형성, 여러 설명 인자, 인과 인자, 깊이, 작업간 공유 인자, 다양체, 자연적 클러스터링, 시간적/공간적 연관성, 희박성, 인자 의존성의 단순성 등.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중