5. Radial Basis Function Networks

5.1. Introduction

방사 기저 함수 (RBF) 망은 지금까지 알아본 신경망과는 기본적으로 다르다. 은닉층은 프로토타입 벡터와의 비교에 기반한 계산을 수행해 선형분리가 불가능한 입력들을 선형분리에 쉽게끔 만든다. 이 때 은닉층의 변환 차원은 입력 차원보다 대개 많고 데이터셋의 숫자보다는 적다. 출력층은 선형 분류나 회귀를 한다. 이는 커널 분류/회귀의 일반화로 볼 수 있다. 은닉 층은 하나로 충분하며, 입력 층의 유닛 수는 데이터의 차원 수와 같고 단지 은닉층으로 전달만 한다. 은닉 층에서는 프로토타입 벡터와 비교를 하며 각 은닉 유닛은 대역폭을 가진다. 이후 활성값은 h_{i} = e^{-\frac{\lVert \mathbf{x} - \mathbf{\mu}_{i} \rVert_{2}^{2}}{2 \sigma_{i}^{2}}}이다. 출력층은 이 활성값들을 이용해 선형 분류/회귀를 한다. 은닉층은 편향 뉴런을 가진다. 은닉층은 비지도학습으로 학습되고 출력층은 경사 하강법으로 학습된다. 이는 커널 법에서 유연성을 늘린 일반화로 볼 수 있다.

When to Use RBF Networks

방사 기저 함수 망의 구조는 학습시킬 수 있는 구조가 제한되어 있다. 은닉층은 노이즈에 강건하기 위해 비지도로 학습된다.

5.2. Training an RBF Network

방사 기저 함수 망의 은닉층은 비지도로 학습된다.

5.2.1. Training the Hidden Layer

은닉층은 프로토타입 벡터와 대역폭으로 구성되며, 대역폭은 유닛마다 같은 값으로 세팅된다. 대역폭은 프로토타입 벡터에 의존한다. 대역폭은 프로토타입 중심간 최대 거리를 유닛 수의 제곱근으로 나눈 값이나, 평균 거리로 세팅된다. 또는 홀드아웃 룰로 정할 수도 있다. 프로토타입 벡터를 정하는 것은 더 복잡한데, 학습 표본 중에서 무작위로 샘플될 수도 있고, k-평균 클러스터의 중심으로 쓸 수도 있고, 데이터 공간을 분할하는 클러스터링 알고리즘을 대신 쓸 수도 있고, 직교 최소제곱 알고리즘을 쓸 수도 있다. 여기서는 k-평균을 쓴다.

5.2.2. Training the Output Layer

출력층은 은닉층이 학습된 뒤 학습되며, 이는 정확한 해가 존재하지만 역행렬을 구해야 하기 때문에 대개 경사 하강법으로 한다. 미니배치 경사 하강법을 쓸 수도 있다.

5.2.2.1. Expression with Pseudo-Inverse

(\mathbf{H}^{T} \mathbf{H})^{-1} \mathbf{H}^{T}\mathbf{H}의 유사역행렬이라 한다.

5.2.3. Orthogonal Least-Squares Algorithm

프로로타입을 정할 때 출력층의 예측값을 쓰면 은닉층의 학습은 지도학습이 될 것이다. 프로토타입을 하나하나씩 선택할 때 최소 오차를 만드는 것을 탐욕적으로 적용하는 것은 매우 비효율적이다. 그 대신 직교 최소제곱법을 쓸 수 있다.

5.2.4. Fully Supervised Learning

역전파를 통해 완전 지도학습을 하는 것도 가능하지만, 학습하기 쉽다는 방사기저함수 망의 이점이 없어지고 과적합에 취약해진다. 그러므로 지도학습은 잘 쓰이지 않는다.

5.3. Variations and Special Cases of RBF Networks

타겟 변수가 이진 변수일 때도 가능하다.

5.3.1. Classification with Perceptron Criterion

이진 변수를 타겟으로 하는 예는 퍼셉트론을 쓸 수 있따.

5.3.2. Clsasification with Hinge Loss

아니면 경첩 손실 함수를 쓸 수도 있다.

5.3.3. Example of Linear Separability Promoted by RBF

은닉층의 주 목적은 선형 분리 가능성을 유도하는 변환을 해 선형 분류기로 쉽게 분류하게 하는 것이다. 이러면 원본 입력 공간에서 선형 분리 불가능한 입력이어도 높은 차원으로 보내 선형 분류가 되게 만들 수 있다.

5.3.4. Application to Interpolation

방사 기저 함수 망의 용례 중 하나로는 외삽이 있다. 선형 회귀 가능하게 만든 뒤 선형 회귀 외삽을 쓰면 된다.

5.4. Relationship with Kernel Methods

커널 법과으 연관성을 알아보자.

5.4.1. Kernel Regression as a Special Case of RBF Networks

커널 회귀는 방사 기저 함수 망의 특별한 경우이다.

5.4.2. Kernel SVM as a Special Case of RBF Networks

커널 보조 벡터 기계는 방사 기저 함수 망의 특별한 경우이다.

5.4.3. Observations

핵심은 방사 기저 함수 망이 커널 회귀나 커널 분류보다 더 유연성을 가진다는 점이다. 은닉층의 유닛 수를 자유롭게 결정할 수 있어서이다. 하지만 과적합에 더 취약해지고 학습의 복잡도는 더 높아진다. 홀드아웃 법을 통해 유닛 수를 정할 수 있다.

5.5. Summary

이 장에선 신경망을 근본적으로 다르게 쓰는 방사 기저 함수 망에 대해 알아보았다. 피드포워드 망과 다르게 은닉층과 출력층은 다르게 학습된다. 은닉층의 학습은 비지도학습이며, 출력층의 학습은 지도학습이다. 은닉층은 대개 입력층보다 많은 노드를 갖는다. 핵심은 고차원 공간에서 데이터를 변환할 때 국소성에 민감한 변환을 하면 변환된 점들이 선형 분리 가능해진다는 것이다. 이 접근법은 손실 함수의 특성을 바꿔 분류, 회귀, 선형 외삽에도 쓰일 수 있다. 분류에서 쓸 수 있는 손실 함수는 위드로우-호프, 경첩 손실, 로지스틱 손실 등이 있다. 다른 손실 함수의 특수한 경우는 커널 보조 벡터 기계나 커널 회귀 등 잘 알려진 커널 법들로 환원된다. 방사 기저 함수 망은 요즘은 잘 쓰지 않지만, 커널 법이 쓰일 수 있는 경우 잠재력이 있다. 또한 피드포워드 망의 첫 번째 층을 갈아 끼움으로써 피드포워드 망과 결합시킬 수도 있다.

5.6. Bibliographic Notes

관련된 많은 논문들이 존재한다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중