4. Gaussian models

4.1. Introduction

이 장에서는 다변수 가우시안(다변수 정규분포, MVN)에 대해 다룬다.

4.1.1. Notation

벡터는 \mathbf{x}, 행렬은 \mathbf{X}로 표기한다. 모든 벡터는 따로 언급이 없는 한 열벡터이다.

4.1.2. Basics

D차원 MVN의 확률밀도함수는 다음과 같다.

\mathcal{N}(\mathbf{x} |\mathbf{\mu},\mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2} |\mathbf{\Sigma}|^{1/2}} e^{-\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^{T} \mathbf{\Sigma}^{-1}  (\mathbf{x} - \mathbf{\mu}) }

지수 안의 식을 더 잘 이해해보기 위해서 고유분해 \mathbf{\Sigma} = \mathbf{U} \mathbf{\Lambda} \mathbf{U}^{T} 를 취해 보자. 여기서 \mathbf{U} 는 정규직교 고유벡터 \mathbf{u}_{i}를 열벡터로 갖는 행렬이다. 고유분해를 적용하면 (\mathbf{x} - \mathbf{\mu})^{T} \mathbf{\Sigma}^{-1}  (\mathbf{x} - \mathbf{\mu}) = \sum_{i=1}^{D} \frac{1}{\lambda_{i}}  (\mathbf{x} - \mathbf{\mu})^{T}  \mathbf{u}_{i} \mathbf{u}_{i}^{T} (\mathbf{x} - \mathbf{\mu})

= \sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}} 가 된다.

여기서 y_{i} = \mathbf{u}_{i}^{T}(\mathbf{x} - \mathbf{\mu})이다.

4.1.3. MLE for an MVN

Theorem 4.1.1. (MLE for a Gaussian). \mathcal{N}(\mathbf{\mu}, \mathbf{\Sigma})를 따르는 N개의 i.i.d 표본 \mathbf{x}_{i}가 존재할 때 모델 변수에 대한 최대가능도근사는 표본평균과 표본공분산이 되며, 다음과 같다.

\hat{\mathbf{\mu}}_{\mathrm{MLE}} = \frac{1}{N} \sum_{i=1}^{N} \mathbf{x}_{i} = \bar{\mathbf{x}}

\hat{\mathbf{\Sigma}}_{\mathrm{MLE}} = \frac{1}{N} \sum_{i=1}^{N} (\mathbf{x}_{i} - \bar{\mathbf{x}})  (\mathbf{x}_{i} - \bar{\mathbf{x}}) ^{T}

= \frac{1}{N}  (\sum_{i=1}^{N}  \mathbf{x}_{i}  \mathbf{x}_{i}^{T}) -  \bar{\mathbf{x}}  \bar{\mathbf{x}}^{T}

4.1.3.1. Proof

증명은 행렬의 트레이스순환 순열 특성을 이용한다.

4.1.4. Maximum entropy derivation of the Gaussian

가우시안 분포의 중요한 특성은 어떤 평균과 공분산값을 가지는 수많은 분포들 중에 최대의 엔트로피를 갖는다는 것이다.

Theorem 4.1.2. q(\mathbf{x})\int q(\mathbf{x}) x_{i}x_{j} d\mathbf{x} = \Sigma_{ij} 를 만족하고 p = \mathcal{N}(\mathbf{0}, \mathbf{\Sigma})일 때, h(q) \leq h(p)이다.

4.2. Gaussian discriminant analysis

MVN의 중요한 응용은 생성적 분류기에 대한 클래스 조건 분포를 정의하는 것이다.

p(\mathbf{x} | y = c, \mathbf{\theta}) = \mathcal{N}(\mathbf{x} | \mathbf{\mu}_{c}, \mathbf{\Sigma}_{c})

이를 판별식 분석(GDA)라고 한다. 이로 클래스 분류를 하면 여러 MVN 중 가장 마할라노비스 거리가 가까운 MVN으로 분류되기 때문에 최근접 중심 분류기라고도 한다.

4.2.1. Quadratic discriminant analys (QDA)

각각 클래스에 대한 사후예측분포는 다음과 같아진다.

p(y=c | \mathbf{x}, \mathbf{\theta}) = \frac{ \pi_{c} |2 \pi \mathbf{\Sigma}_{c}|^{-\frac{1}{2}} e^{-\frac{1}{2}  (\mathbf{x} - \mathbf{\mu}_{c})^{T} \mathbf{\Sigma}_{c}^{-1}  (\mathbf{x} - \mathbf{\mu}_{c})  } }{\sum_{c'} \pi_{c'} |2 \pi \mathbf{\Sigma}_{c'}|^{-\frac{1}{2}} e^{-\frac{1}{2}  (\mathbf{x} - \mathbf{\mu}_{c'})^{T} \mathbf{\Sigma}_{c'}^{-1}  (\mathbf{x} - \mathbf{\mu}_{c'})  }}

이는 \mathbf{x}에 대한 이차식이 판별식이 되기 때문에 이차 판별 분석(QDA)라고 불린다.

4.2.2. Linear discriminant analysis(LDA)

각각의 공분산 행렬이 공유된다고 가정해 보자. 이렇게 되면 이차 판별 분석식은 다음과 같이 단순화된다.

p(y=c | \mathbf{x}, \mathbf{\theta}) \propto \pi_{c} e^{\mathbf{\mu}_{c}^{T} \mathbf{\Sigma}^{-1} \mathbf{x} - \frac{1}{2} \mathbf{\mu}_{c}^{T} \mathbf{\Sigma}^{-1} \mathbf{\mu}_{c}  }

이 때 \gamma_{c} = -\frac{1}{2}  \mathbf{\mu}_{c}^{T} \mathbf{\Sigma}^{-1} \mathbf{\mu}_{c}  + \log \pi_{c} , \mathbf{\beta}_{c} = \mathbf{\Sigma}^{-1} \mathbf{\mu}_{c}로 놓으면

p(y=c | \mathbf{x}, \mathbf{\theta}) = \frac{e^{\mathbf{\beta}_{c}^{T} \mathbf{x} + \gamma_{c}}}{\sum_{c'}  e^{\mathbf{\beta}_{c'}^{T} \mathbf{x} + \gamma_{c'}} } = \mathcal{S}(\mathbf{\eta})_{c}

로 쓸 수 있다. 여기서 \mathbf{\eta} = [\mathbf{\beta}_{1}^{T} \mathbf{x} + \gamma_{1}, \cdots,  \mathbf{\beta}_{C}^{T} \mathbf{x} + \gamma_{C} ] 이고, \mathcal{S}(\mathbf{\eta})_{c} = \frac{e^{\eta_{c}}}{\sum_{c'=1}^{C} e^{\eta_{c'}}} 소프트맥스 함수이다.

이렇게 하면 클래스간 결정 경계가 선형이 되기 때문에 선형 판별 분석(LDA)라고 한다.

2, 3 클래스 데이터간 선형/이차 판별식 분석.
소프트맥스 함수의 예.

선형 판별 분석의 모델 인자를 피팅하는 다른 방법은 어떤 C x D 가중치 행렬 \mathbf{W}에 대해 p(y | \mathbf{x}, \mathbf{W}) = \mathrm{Cat}(y | \mathbf{W}\mathbf{x})을 피팅하는 것이다. 이를 다중 클래스 로지스틱 회귀 또는 다항 로지스틱 회귀라 한다.

4.2.3. Two-class LDA

클래스가 2개인 경우로 생각해 보자.

\mathbf{w} = \mathbf{\beta}_{1} - \mathbf{\beta}_{0} = \mathbf{\Sigma}^{-1} (\mathbf{\mu}_{1} - \mathbf{\mu}_{0}) ,

\mathbf{x}_{0} = \frac{1}{2} (\mathbf{\mu}_{1} + \mathbf{\mu}_{0}) -  (\mathbf{\mu}_{1} - \mathbf{\mu}_{0})  \frac{\log (\pi_{1} / \pi_{0})}{ (\mathbf{\mu}_{1} - \mathbf{\mu}_{0})^{T}  \mathbf{\Sigma}^{-1}(\mathbf{\mu}_{1} - \mathbf{\mu}_{0}) } 으로 두면

p(y = 1|\mathbf{x}, \mathbf{\theta}) = \mathrm{sigm} (\mathbf{w}^{T}(\mathbf{x} - \mathbf{x}_{0}))이 된다.

이를 요약하면 다음과 같다: \mathbf{x}\mathbf{x}_{0}만큼 움직인 뒤 \mathbf{w} 에 사영시켰을 때의 값이 양수인지 음수인지 결정해 두 클래스 중 하나로 분류한다.

\mathbf{\Sigma} = \sigma^{2} \mathbf{I}인 경우에는 \mathbf{w}의 방향이 \mathbf{\mu}_{1} -  \mathbf{\mu}_{0} 과 일치해지기 떄문에 \mathbf{x}\mathbf{\mu}_{1}과 가까운지 \mathbf{\mu}_{0} 과 가까운지만 보면 된다.

\pi_{1} = \pi_{0} 인 경우에는 \mathbf{x}_{0} =\frac{1}{2} \mathbf{\mu}_{0} +  \mathbf{\mu}_{1}이 된다.

4.2.4. MLE for discriminant analysis

판별식 분석 모델을 피팅하는 가장 간단한 방법은 최대가능도근사이다. 이는 다음과 같다.

\hat{\mathbf{\mu}}_{c} = \frac{1}{N_{c}} \sum_{i : y_{i} = c} \mathbf{x}_{i}

\hat{\mathbf{\Sigma}}_{c} = \frac{1}{N_{c}} \sum_{i : y_{i} = c} (\mathbf{x}_{i} - \hat{\mathbf{\mu}}_{c}) (\mathbf{x}_{i} - \hat{\mathbf{\mu}}_{c}) ^{T}

4.2.5. Strategies for preventing overfitting

최대가능도근사는 큰 차원에서 과적합될 위험이 크다. 이에 대처하는 여러 방법이 있다.

  • 각각 클래스에 대한 공분산을 대각행렬로 가정함으로써 조건부 독립 조건을 얻는다. 이는 나이브 베이스 분류기와 같다.
  • 모든 클래스의 공분산을 인자 공유시킨다. 이는 LDA와 같다.
  • 각각 클래스의 공분산을 대각행렬로 가정하며 공유시킨다. 이는 대각 공분산 LDA와 같다.
  • 공분산에 사전분포를 도입한다. 이는 베이지안 나이브 베이스와 비슷하다.
  • 공분산 행렬을 최대사후확률 근사로 피팅한다.
  • 데이터의 차원을 낮춰 사영한다.

4.2.6. Regularized LDA

공분산의 최대가능도 근사에 대해 대각 공분산 사전분포와 가중치 선형결합을 시킬 수 있다.

\hat{\mathbf{\Sigma}} = \lambda \mathrm{diag}  \hat{\mathbf{\Sigma}} _{\mathrm{MLE}} + (1 - \lambda) \hat{\mathbf{\Sigma}}_{\mathrm{MLE}}

이 때 \lambda를 정규화 가중치라고 하며 이 방법을 정규화 판별식 분석이라 한다.

4.2.7. Diagonal LDA

공분산을 공유한 뒤(LDA) 여기에 대각화 가정까지 추가하는 대각 LDA가 있다. 고차원에서는 이 모델이 LDA나 RDA보다 더 좋은 퍼포먼스를 보이곤 한다. 이 때 판별식은 다음과 같다.

\log p(\mathbf{x}, y = c | \mathbf{\theta}) = -\sum_{j=1}^{D} \frac{(x_{j} - \mu_{cj})^{2}}{2 \sigma_{j}^{2}} + \log \pi_{c}

이 때 보통 \hat{\mu}_{cj} = \bar{x}_{cj} , \hat{\sigma}_{j}^{2} = s_{j}^{2} = \frac{\sum_{c=1}^{C} \sum_{i : y_{i} = c} (x_{ij} - \bar{x}_{cj})^{2}}{N - C}로 설정한다. 이 경우 분산을 공동 실측 분산이라 한다.

4.2.8. Nearest shrunken centroids classifier

대각 LDA의 단점은 모든 특성에 의존한다는 것이다. 이를 위해 특성들 일부를 스크리닝하는 방법을 생각할 수 있다. 이 방법을 최근접 수축 중심 분류기라 한다.

4.3. Inference in jointly Gaussian distributions

4.3.1. Statement of the result

Theorem 4.3.1. (Marginals and conditionals of an MVN) \mathbf{x} = (\mathbf{x}_{1}, \mathbf{x}_{2}) 을 결합 가우시안 분포라 하고 그 인자가 \mathbf{\mu} =  \begin{pmatrix}  \mathbf{\mu}_{1}  \\ \mathbf{\mu}_{2}  \end{pmatrix}  , \mathbf{\Sigma} = \begin{pmatrix}  \mathbf{\Sigma}_{11} &  \mathbf{\Sigma}_{12}  \\ \mathbf{\Sigma}_{21}  &  \mathbf{\Sigma}_{22}  \end{pmatrix} , \mathbf{\Lambda} = \mathbf{\Sigma}^{-1} = \begin{pmatrix}  \mathbf{\Lambda}_{11} &  \mathbf{\Lambda}_{12}  \\ \mathbf{\Lambda}_{21}  &  \mathbf{\Lambda}_{22}  \end{pmatrix} 로 주어져 있을 때, 그 주변분포는 다음과 같다.

p(\mathbf{x}_{1}) = \mathcal{N}(\mathbf{x}_{1} | \mathbf{\mu}_{1},  \mathbf{\Sigma}_{11} )

p(\mathbf{x}_{2}) = \mathcal{N}(\mathbf{x}_{2} | \mathbf{\mu}_{2},  \mathbf{\Sigma}_{22} )

사후조건분포는 다음과 같다.

p(\mathbf{x}_{1} | \mathbf{x}_{2}) = \mathcal{N}(\mathbf{x}_{1} | \mathbf{\mu}_{1 | 2},  \mathbf{\Sigma}_{1 | 2} )

\mathbf{\mu}_{1 | 2} = \mathbf{\mu}_{1} + \mathbf{\Sigma}_{12} \mathbf{\Sigma}_{22}^{-1} (\mathbf{x}_{2} - \mathbf{\mu}_{2}) =   \mathbf{\mu}_{1} + \mathbf{\Lambda}_{11}^{-1} \mathbf{\Lambda}_{12} (\mathbf{x}_{2} - \mathbf{\mu}_{2}) = \mathbf{\Sigma}_{1 | 2} (\mathbf{\Lambda}_{11}\mathbf{\mu}_{1} - \mathbf{\Lambda}_{12}(\mathbf{x}_{2} - \mathbf{\mu}_{2}))

\mathbf{\Sigma}_{1 | 2} = \mathbf{\Sigma}_{11} -  \mathbf{\Sigma}_{12}  \mathbf{\Sigma}_{22}^{-1}  \mathbf{\Sigma}_{21} = \mathbf{\Lambda}_{11}^{-1}

4.3.2. Examples

4.3.2.1. Marginals and conditionals of a 2d Gaussian

2차원의 경우 공분산 행렬은 다음과 같다.

\mathbf{\Sigma} = \begin{pmatrix}  \mathbf{\sigma}_{1}^{2} &  \mathbf{\rho}\mathbf{\sigma}_{1} \mathbf{\sigma}_{2} \\  \mathbf{\rho}\mathbf{\sigma}_{1} \mathbf{\sigma}_{2}  &    \mathbf{\sigma}_{2}^{2}    \end{pmatrix}

이 때 주변 분포는 다음과 같아진다.

p(x_{1} | x_{2}) = \mathcal{N}(x_{1} | \mu_{1} + \frac{\rho \sigma_{1} \sigma_{2}}{\sigma_{2}^{2}}(x_{2} - \mu_{2}), \sigma_{1}^{2} - \frac{(\rho \sigma_{1}\sigma_{2})^{2}}{\sigma_{2}^{2}})

\sigma_{1} = \sigma_{2} = \sigma 인 경우엔 다음과 같아진다.

p(x_{1} | x_{2}) = \mathcal{N}(x_{1} | \mu_{1} + \rho(x_{2} - \mu_{2}), \sigma^{2} (1 - \rho^{2}))

2D 가우시안의 결합분포, 주변분포, 조건분포.

4.3.2.2. Interpolating noise-free data

노이즈가 없다고 가정할 때 함수를 보간하는 방법을 알아보자.

함수를 D개의 구간으로 나누고 x_{j} = f(s_{j}) , s_{j} = jh , h = \frac{T}{D} 이라 하면 가우시안 노이즈 \mathbf{\epsilon} \sim \mathcal{N}(\mathbf{0}, (1/\lambda) \mathbf{I}) 에 대해 다음을 가정할 수 있다.

x_{j} = \frac{1}{2} (x_{j-1} + x_{j+1}) + \epsilon_{j}

이를 행렬 형식으로 바꾸면 \mathbf{L}\mathbf{x} = \mathbf{\epsilon} 이 된다.

이 때 \mathbf{L} = \frac{1}{2} \begin{pmatrix}  -1 & 2 & -1 &  \cdots  & \\   \cdots & -1 & 2 & -1 & \cdots \\ & \cdots & -1 & 2 & -1   \end{pmatrix}  은 (D – 2) x D 크기의 유한차 행렬 이다.

대응되는 사전분포는 p(\mathbf{x}) = \mathcal{N}(\mathbf{x} | \mathbf{0}, (\lambda \mathbf{L}^{T} \mathbf{L})^{-1}) \propto e^{-\frac{\lambda}{2} \left\lVert \mathbf{L}\mathbf{x} \right\rVert_{2}^{2}} 이다.

이 때 \mathbf{x}_{2} 을 N개의 노이즈 없는 관측이라 하고 \mathbf{x}_{1} 을 D – N개의 알 수 없는 함수값이라 하자. 일반성을 잃지 않고 \mathbf{x}_{1}, \mathbf{x}_{2} 순서로 정렬되었다 하면 \mathbf{L} =  [\mathbf{L}_{1}  \mathbf{L}_{2}] 로 분해할 수 있다.

이 때 주변분포를 p(\mathbf{x}_{1} | \mathbf{x}_{2}) = \mathcal{N}(\mathbf{\mu}_{1|2},  \mathbf{\Sigma}_{1|2} ) 라 하면

\mathbf{\mu}_{1|2} = -\mathbf{L}_{1}^{-1} \mathbf{L}_{2} \mathbf{x}_{2}, \mathbf{\Sigma}_{1|2} = \mathbf{\Lambda}_{11}^{-1}

95% 점별 주변 신용 구간을 찍어 보면 사전분포가 작으면 신용구간의 폭이 커지고, 신용구간의 폭은 실제 관측된 데이터에서 벗어날 수록 커짐을 알 수 있다.

사전분포 정밀도에 따른 노이즈 없는 데이터의 보간.

4.3.2.3. Data imputation

데이터의 일부가 유실된 경우 보존된 데이터로부터 유실된 데이터를 복원해낼 수 있다. 각각의 행에 대해 p(\mathbf{x}_{\mathbf{h}_{i}} | \mathbf{x}_{\mathbf{v}_{i}}, \mathbf{\theta}) 를 계산하고, (여기서 \mathbf{h}_{i}, \mathbf{v}_{i} 은 각각 i번째 데이터의 숨겨진/보존된 특성들이다) 이로부터 각각의 유실된 특성에 대한 주변분포 p(\mathbf{x}_{h_{ij}} | \mathbf{x}_{\mathbf{v}_{i}}, \mathbf{\theta}) 를 계산한 뒤 이 분포의 평균과 분산으로 이 복원의 기대값과 정밀도를 측정한다. 이를 다중 전가라고 한다.

데이터 전가의 예제. 관찰된 데이터 / 전가된 데이터 / 참값 / 오차.

4.3.3. Information form

\mathbf{x} \sim \mathcal{N}(\mathbf{\mu},  \mathbf{\Sigma} ) 에 대해 \mathbf{\mu},  \mathbf{\Sigma} 모멘트 인자라고 하고, \mathbf{\Lambda} = \mathbf{\Sigma}^{-1},  \mathbf{\xi} = \mathbf{\Sigma}^{-1} \mathbf{\mu} 표준적 인자 또는 자연적 인자라 한다.

자연적 인자를 통해 MVN을 정보형(자연형)으로 쓸 수 있다.

\mathcal{N}_{c}(\mathbf{x} | \mathbf{\xi}, \mathbf{\Lambda}) = (2 \pi)^{-D/2} |\mathbf{\Lambda}|^{1/2} e^{-\frac{1}{2} (\mathbf{x}^{T} \mathbf{\Lambda} \mathbf{x} + \mathbf{\xi}^{T} \mathbf{\Lambda}^{-1} \mathbf{\xi} - 2 \mathbf{x}^{T} \mathbf{\xi})}

주변분포와 조건분포는 다음과 같아진다.

p(\mathbf{x}_{2})  =  \mathcal{N}_{c} (\mathbf{x}_{2} | \mathbf{\xi}_{2} - \mathbf{\Lambda}_{21} \mathbf{\Lambda}_{11}^{-1} \mathbf{\xi}_{1},  \mathbf{\Lambda}_{22}- \mathbf{\Lambda}_{11}^{-1} \mathbf{\Lambda}_{12})

p(\mathbf{x}_{1} | \mathbf{x}_{2})  =  \mathcal{N}_{c} (\mathbf{x}_{1} | \mathbf{\xi}_{1} - \mathbf{\Lambda}_{12} \mathbf{x}_{2},  \mathbf{\Lambda}_{11})

주변분포는 모멘트 형에서 구하기 쉽고 조건분포는 정보 형에서 구하기 쉬워짐을 알 수 있다. 정보형에서는 두 정규분포의 곱셈 분포도 표현하기 쉽다.

\mathcal{N}_{c} (\xi_{f}, \lambda_{f})  \mathcal{N}_{c} (\xi_{g}, \lambda_{g}) \propto  \mathcal{N}_{c} (\xi_{f}+\xi_{g}, \lambda_{f} + \lambda_{g})

모멘트형에서는 더 지저분해진다.

\mathcal{N} (\mu_{f}, \sigma_{f}^{2})  \mathcal{N} (\mu_{g}, \sigma_{g}^{2}) \propto   \mathcal{N} (\frac{\mu_{f} \sigma_{g}^{2} + \mu_{g} \sigma_{f}^{2}}{\sigma_{f}^{2} + \sigma_{g}^{2}}, \frac{\sigma_{f}^{2}\sigma_{g}^{2}}{ \sigma_{f}^{2} + \sigma_{g}^{2} })

4.3.4. Proof of the result

4.3.4.1. Inverse of a partitioned matrix using Schur complements

분할된 행렬의 역행렬슈르 보수 표현식을 통해 구한다.

4.3.4.2. THe matrix inversion lemma

분할된 행렬의 역행렬 공식을 통해 행렬 반전식(셔먼-모리슨-우드버리 공식) 등을 구할 수 있다.

4.3.4.3. Proof of Gaussian conditioning formulas

이를 적용해 가우시안 조건분포를 구한다.

4.4. Linear Gaussian systems

두 변수 \mathbf{x}, \mathbf{y} \in \mathbb{R}^{D_{x}} 이에 대해 \mathbf{x}가 숨겨진 변수고 \mathbf{y}는 이의 노이즈 낀 관측이라고 하자. \mathbf{A}D_{y} \times D_{x} 크기의 행렬이라고 할 때 사전분포와 가능도가 다음과 같이 주어졌다면,

p(\mathbf{x}) = \mathcal{N}(\mathbf{x} | \mathbf{\mu}_{x}, \mathbf{\Sigma}_{x}) , p(\mathbf{y} | \mathbf{x}) = \mathcal{N}(\mathbf{y} | \mathbf{A} \mathbf{x} + \mathbf{b}, \mathbf{\Sigma}_{y})

이를 선형 가우시안 시스템이라 한다. \mathbf{x}\mathbf{y}를 생성한다고 하며 \mathbf{x} \to \mathbf{y} 로 표기한다.

4.4.1. Statement of the result

Theorem 4.4.1. (Bayes rule for linear Gaussian systems) 선형 가우시안 시스템에서 사후분포와 정규화 계수는 다음과 같다.

p(\mathbf{x} | \mathbf{y}) = \mathcal{N} (\mathbf{x} | \mathbf{\mu}_{x | y}, \mathbf{\Sigma}_{x | y})

\mathbf{\Sigma}_{x | y}^{-1} = \mathbf{\Sigma}_{x}^{-1} + \mathbf{A}^{T} \mathbf{\Sigma}_{y}^{-1} \mathbf{A}

\mathbf{\mu}_{x | y} = \mathbf{\Sigma}_{x | y} [\mathbf{A}^{T}  \mathbf{\Sigma}_{y}^{-1} (\mathbf{y} - \mathbf{b}) + \mathbf{\Sigma}_{x}^{-1} + \mathbf{\mu}_{x}]

p(\mathbf{y}) = \mathcal{N}(\mathbf{y} | \mathbf{A} \mathbf{\mu}_{x} + \mathbf{b}, \mathbf{\Sigma}_{y} + \mathbf{A} \mathbf{\Sigma}_{x} \mathbf{A}^{T})

4.4.2. Examples

4.4.2.1. Inferring an unknown scalar from noisy measurements

어떤 변량 x에 대한 N개의 노이즈 낀 관측 y_{i}를 얻었다고 하자. 노이즈의 정밀도가 \lambda_{y} = 1 / \sigma^{2}라고 할 때, 가능도는 p(y_{i} | x) = \mathcal{N}(y_{i} | x, \lambda_{y}^{-1}) 이다.

x에 대한 가우시안 사전분포를 p(x) = \mathcal{N}(x | \mu_{0}, \lambda_{0}^{-1} 로 잡을 경우 위의 공식을 적용하면 \mathbf{y}에 대한 x의 분포는 다음과 같다.

p(x | \mathbf{y}) = \mathcal{N}(x | \mu_{N}, \lambda_{N}^{-1}) , \lambda_{N} = \lambda_{0} + N \lambda_{y} , \mu_{N} = \frac{N \lambda_{y}}{N \lambda_{y} + \lambda_{0}} \bar{y} +  \frac{\lambda_{0}}{N \lambda_{y} + \lambda_{0}} \mu_{0}

이 의미를 살펴보면 사후 정밀도는 사전 정밀도와 측정 정밀도의 가중치 합이 되고 사후 평균은 최대가능도근사와 사전평균의 가중치 합이 된다. 공식을 살펴보면 \lambda_{y} 정밀도로 N번의 관측을 한 것은 N \lambda_{y} 정밀도로 값 \bar{y}를 갖는 1번의 관측을 한 것과 같다. 위의 결과를 정밀도가 아닌 분산 식으로 다시 쓰면 다음과 같다.

p(x | \mathbf{y}) = \mathcal{N}(x | \mu_{N}, \sigma_{N}^{2}) , \sigma_{N}^{2} = \frac{\sigma^{2} \sigma_{0}^{2}}{N \sigma_{0}^{2} + \sigma^{2}} , \mu_{N} = \frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2} + \sigma^{2}} \bar{y} +  \frac{\sigma^{2}}{N \sigma_{0}^{2} + \sigma^{2} } \mu_{0}

이는 데이터 스트림이 들어오는 상황에 대한 순차적 업데이트가 가능한 식이다. 해당 식의 사후평균을 데이터가 사전평균 쪽으로 치우친 것에 대한 수축량으로 다시 쓸 수도 있다. 수축량은 신호 대 잡음비로 쓸 수도 있다.

노이즈 있는 관측을 통한 x의 추론. 강한 사전분포 / 약한 사전분포.

4.4.2.2. Inferring an unknown vector from noisy measurements

이제 위의 예제를 스칼라 변량이 아닌 벡터 변량일 때로 확장해 보자. 이 경우 다음을 얻는다.

p(\mathbf{x} | \mathbf{Y}) = \mathcal{N}(\mathbf{x} | \mathbf{\mu}_{N}, \mathbf{\Sigma}_{N}) , \mathbf{\Sigma}_{N}^{-1} = \mathbf{\Sigma}_{0}^{-1} + N \mathbf{\Sigma}_{y}^{-1} , \mathbf{\mu}_{N} = \mathbf{\Sigma}_{N} (\mathbf{\Sigma}_{y}^{-1} (N \bar{\mathbf{y}} + \mathbf{\Sigma}_{0}^{-1} \mathbf{\mu}_{0} )

복수의 측정기로부터 노이즈 낀 샘플을 얻고 이를 혼합해야 할 수도 있다. 이를 센서 융합이라 한다. 이 때 사후분포는 데이터의 적절한 가중평균을 통해 계산된다.

노이즈 있는 데이터의 가우시안 사전분포 정밀도에 따른 데이터 보간.

4.4.2.3. Interpolating noisy data

노이즈 낀 데이터를 보간하는 법에 대해 알아보자. 선형 가우시안 시스템 \mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{\epsilon} 에 대해 \mathbf{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{\Sigma}_{y}) 는 가우시안 노이즈, \mathbf{\Sigma}_{y} = \sigma^{2} \mathbf{I} 이고 \mathbf{A}는 N x D 사영 행렬로서 관측된 항목들을 솎아내는 역할을 한다.

4.3.2.2와 같은 방식을 사용하면 사후평균과 사후분산을 쉽게 계산할 수 있다. 사전 정밀도는 사후평균과 사후분산 모두에 영향을 미친다. 사전분포가 강하다면 보간값의 그래프는 매끄러워지고, 사전분포가 약하다면 보간값의 그래프는 울퉁불퉁해진다.

사후평균을 계산하는 법에는 다음 최적화 문제를 푸는 방법도 있다.

\min_{\mathbf{x}} \frac{1}{2 \sigma^{2}} \sum_{i = 1}^{N} (x_{i} - y_{i})^{2} + \frac{\lambda}{2} \sum_{j=1}^{D} [(x_{j} - x_{j-1})^{2} + (x_{j} + x_{j+1})^{2} ]

이 식은 사실 다음 문제에 대한 이산적 근사로 볼 수 있다.

\min_{f} \frac{1}{2 \sigma^{2}} \int (f(t) - y(t))^{2} dt + \frac{\lambda}{2} \int [f'(t)]^{2} dt

이를 티코노프 정규화라고 하며 함수 데이터 분석에 쓰인다.

4.4.3. Proof of the result

4.4.1의 식의 증명은 결합분포를 계산한 뒤 4.3.1.의 식을 사용한다.

4.5. Digression: The Wishart distribution

위샤트 분포는 감마 분포의 일반화이다. 확률밀도함수는 다음과 같다.

\mathrm{Wi}(\mathbf{\Lambda} | \mathbf{S}, \nu) = \frac{1}{2^{\frac{\nu D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma(\frac{\nu + 1 - i}{2}) |\mathbf{S}|^{\frac{\nu}{2}}  } |\mathbf{\Lambda}|^{\frac{(\nu - D - 1)}{2}} e^{-\frac{1}{2} \mathrm{tr}(\mathbf{\Lambda} \mathbf{S}^{-1})}

\nu는 자유도, \mathbf{S}는 스케일 행렬이라 불린다. 확률밀도함수는 \nu > D - 1일 때만 잘 정의된다. 위샤트 분포와 가우시안 분포의 관계는 다음과 같다: \mathbf{x}_{i} \sim \mathcal{N}(0, \mathbf{\Sigma}) 에 대해 산포 행렬 \mathbf{S} = \sum_{i=1}^{N} \mathbf{x}_{i} \mathbf{x}_{i}^{T} \sim \mathrm{Wi}(\mathbf{\Sigma}, N) 이 된다.

위샤트 분포의 평균은 \nu \mathbf{S} , 최빈값은 (\nu - D - 1) \mathbf{S} 이 된다. 최빈값은 \nu > D + 1일 때만 존재한다.

D = 1일 때 위샤트 분포는 감마 분포 \mathrm{Ga}(\lambda | \frac{\nu}{2}, \frac{s}{2}) 가 된다.

4.5.1. Inverse Wishart distribution

감마 분포에서 역감마 분포를 유도했듯, 위샤트 분포에서 역위샤트 분포를 유도할 수 있다. \nu > D - 1 , \mathbf{S} > 0에 대해서 확률밀도함수는 다음과 같다.

\mathrm{IW}(\mathbf{\Sigma} | \mathbf{S}, \nu) = \frac{1}{|\mathbf{S}|^{-\frac{\nu}{2}} 2^{\frac{\nu D}{2}}  \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma(\frac{\nu + 1 - i}{2})  } |\mathbf{\Sigma}|^{-\frac{(\nu + D + 1)}{2}} e^{-\frac{1}{2} \mathrm{tr}(\mathbf{S}^{-1} \mathbf{\Sigma}^{-1}) }

평균은 \frac{\mathbf{S}^{-1}}{\nu - D - 1}, \frac{\mathbf{S}^{-1}}{\nu + D + 1} 이 된다.

D = 1이면 이는 역감마 분포 \mathrm{IG}(\sigma^{2} | \frac{\nu}{2}, \frac{S}{2}) 가 된다.

4.5.2. Visualizing the Wishart distribution

위샤트 분포는 행렬에 대한 분포이기 때문에 시각화하기는 힘들다. 2d 케이스에 대해서는 고유벡터들을 취해 타원을 그릴 수 있다. 더 높은 차원에 대해서는 분포에 대한 주변분포들 각각이 감마 분포가 되므로 이들을 그리면 된다.

위샤트 분포의 샘플 / 주변분포.

4.6. Inferring the parameters of an MVN

지금까지는 가우시안 분포의 인자들을 알고 있다는 가정하의 확률적 추론법을 알아보았다. 그렇다면 가우시안 분포의 인자들 그 자체를 추론하려면 어떻게 할까? 먼저 데이터 \mathbf{x}_{i} \sim \mathcal{N}(\mathbf{\mu}, \mathbf{\Sigma}) 에는 유실된 것이 없다고 가정한다. 이는 세 단계로 이루어진다: p(\mathbf{\mu} | \mathcal{D}, \mathbf{\Sigma}) 를 계산, p(\mathbf{\Sigma} | \mathcal{D}, \mathbf{\mu}) 를 계산한 뒤 결합분포 p(\mathbf{\mu}, \mathbf{\Sigma} | \mathcal{D}) 를 계산하는 것이다.

4.6.1. Posterior distribution of \mathbf{\mu}

가능도를 p(\mathcal{D} | \mathbf{\mu}) = \mathcal{N} (\bar{\mathbf{x}} | \mathbf{\mu}, \frac{1}{N} \mathbf{\Sigma} ) , 사전분포를 p(\mathbf{\mu}) = \mathcal{N} (\mathbf{\mu} | \mathbf{m}_{0}, \mathbf{V}_{0}) 이라 하면 사후분포는 다음과 같다. p(\mathbf{\mu} | \mathcal{D}, \mathbf{\Sigma}) = \mathcal{N} (\mathbf{\mu} | \mathbf{m}_{N}, \mathbf{V}_{N}) ,

\mathbf{V}_{N}^{-1} = \mathbf{V}_{0}^{-1} + N \mathbf{\Sigma}^{-1} ,

\mathbf{m}_{N} = \mathbf{V}_{N}(\mathbf{\Sigma}^{-1} (N \bar{\mathbf{x}}) + \mathbf{V}_{0}^{-1} \mathbf{m}_{0})

이 때 사전분포의 세기를 0으로 하면 사후분포는 p(\mathbf{\mu} | \mathcal{D}, \mathbf{\Sigma}) = \mathcal{N} (\mathbf{\mu} | \bar{\mathbf{x}}, \frac{1}{N} \mathbf{\Sigma}) 이 되어, 사후평균은 최대가능도근사와 같아지고 사후분산은 1/N배가 된다.

4.6.2. Posterior distribution of \mathbf{\Sigma}

p(\mathbf{\Sigma} | \mathcal{D}, \mathbf{\mu}) 을 계산해보자. 가능도는 p(\mathcal{D} | \mathbf{\mu}, \mathbf{\Sigma}) \propto |\mathbf{\Sigma}|^{-\frac{N}{2}} e^{-\frac{1}{2} \mathrm{tr} (\mathbf{S}_{\mu} \mathbf{\Sigma}^{-1})} 의 꼴이 되는데, 이와 켤레함수꼴의 사전분포는 역위샤트 분포로 \mathrm{IW}(\mathbf{\Sigma} | \mathbf{S}_{0}^{-1}, \nu_{0}) \propto |\mathbf{\Sigma}|^{-\frac{\nu_{0} + D + 1}{2}} e^{-\frac{1}{2} \mathrm{tr} (\mathbf{S}_{0} \mathbf{\Sigma}^{-1})} 형태이다. 이를 곱하면 사후분포는 다음과 같다:

p(\mathbf{\Sigma} | \mathcal{D}, \mathbf{\mu}) \propto |\mathbf{\Sigma}|^{-\frac{N}{2}} e^{-\frac{1}{2} \mathrm{tr}(\mathbf{\Sigma^{-1}} \mathbf{S}_{\mu}) } |\mathbf{\Sigma}|^{-\frac{\nu_{0} + D + 1}{2}} e^{-\frac{1}{2} \mathrm{tr}(\mathbf{\Sigma^{-1}} \mathbf{S}_{0})} = \mathrm{IW}(\mathbf{\Sigma} | \mathbf{S}_{N}, \nu_{N}), \mathbf{S}_{N} = \mathbf{S}_{0} + \mathbf{S}_{\mu} , \nu_{N} = \nu_{0} + N

4.6.2.1. MAP estimation

최대사후분포근사는 다음과 같다.

\hat{\mathbf{\Sigma}}_{\mathrm{MAP}} = \frac{\mathbf{S}_{0} + \mathbf{S}_{\mu}}{N_{0} + N} = \lambda \mathbf{\Sigma}_{0} + (1 - \lambda)  \hat{\mathbf{\Sigma}}_{\mathrm{MLE}}

여기서 \lambda = \frac{N_{0}}{N_{0} + N} 는 사전분포를 향한 수축도, \mathbf{\mathbf{S}_{0}}{N_{0}} 은 사전최빈값이다.

이 때 사전분포의 인자는 어디서 얻는가라는 질문을 할 수 있다. 보통은 교차검증을 통해 얻는다. 사전 공분산행렬로는 보통 \mathbf{S}_{0} = \mathrm{diag}(\hat{\mathbf{\Sigma}}_{\mathrm{MLE}})을 사용한다.

이를 최대사후분포근사 \hat{\mathbf{\Sigma}}_{\mathrm{MAP}} 에 대입하면, 대각 원소들에 대해서는 최대가능도근사와 같아지고 그 외에 대해서는 수축 인자 1 - \lambda 가 곱해져 0으로 이동한다. 이 방법을 수축 근사 또는 정규화 근사라 한다. 공분산 행렬에 대해 정규화를 수행하면 최대사후분포근사의 고유값 스펙트럼은 최대가능도근사에 가까워지나, 고유벡터는 변하지 않는다. 공분산 행렬을 고차원 데이터에 피팅시킬 때 정규화 등의 테크닉은 중요하다.

D = 50에서의공분산 행렬의 근사, N = 100 / 50 / 25.

4.6.2.2. Univariate prior

1차원 케이스에 대해서는 가능도는 다음과 같다.

p(\mathcal{D} | \sigma^{2}) \propto (\sigma^{2})^{-\frac{N}{2}} e^{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{N} (x_{i} - \mu)^2}

켤레사전분포로 역감마 분포 \mathrm{IG}(\sigma^{2} | a_{0}, b_{0}) \propto (\sigma^{2})^{-(a_{0} + 1)} e^{-\frac{b_{0}}{\sigma^{2}}} 를 쓰면 사후분포도 역시 역감마 분포가 된다.

p(\sigma^{2} | \mathcal{D}) = \mathrm{IG} (\sigma^{2} | a_{N}, b_{N}), a_{N} = a_{0} + \frac{N}{2} , b_{N} = b_{0} + \frac{1}{2} \sum_{i=1}^{N} (x_{i} - \mu)^{2}

역감마 분포의 문제점은 사전분포의 세기를 나타내는 인자가 a_{0}, b_{0}으로 2개라는 점이다. 역카이제곱 분포 \chi^{-2}(\sigma^{2} | \nu_{0}, \sigma_{0}^{2}) \propto (\sigma^{2})^{-\frac{\nu_{0}}{2} - 1} e^{-\frac{\nu_{0} \sigma_{0}^{2}}{2 \sigma^{2}}} 를 사용해 이를 피할 수 있다. 이 경우 사전분포의 세기는 \nu_{0}에만 의존하며, 사후분포는 다음과 같다:

p(\sigma^{2} | \mathcal{D}, \mu) = \chi^{-2}(\sigma^{2} | \nu_{N}, \sigma_{N}^{2}) , \nu_{N} = \nu_{0} + N , \sigma_{N}^{2} = \frac{\nu_{0} \sigma_{0}^{2} + \sum_{i=1}^{N} (x_{i} - \nu)^{2}}{\nu_{N}}

사후분포의 순차적 업데이트. 푸른색 : N = 2, 붉은색 : N = 5

4.6.3. Posterior distribution of \mathbf{\mu} and \mathbf{\Sigma}

4.6.3.1. Likelihood

가능도는 다음과 같다.

p(\mathcal{D} | \mathbf{\mu}, \mathbf{\Sigma}) = (2 \pi)^{-\frac{ND}{2}} |\mathbf{\Sigma}|^{-\frac{N}{2}} e^{-\frac{N}{2} (\mathbf{\mu} - \bar{\mathbf{x}})^{T} \mathbf{\Sigma}^{-1}  (\mathbf{\mu} - \bar{\mathbf{x}})} e^{-\frac{1}{2} \mathrm{tr} (\mathbf{\Sigma}^{-1} \mathbf{S}_{\bar{x}})}

4.6.3.2. Prior

사전분포 p(\mathbf{\mu}, \mathbf{\Sigma}) 을 단순히 p(\mathbf{\mu}) p(\mathbf{\Sigma}) 의 곱으로 놓을 수는 없다. \mathbf{\mu}\mathbf{\Sigma}가 가능도에서 같이 등장하지만 인수분해된 형태로 나오지는 않기 때문에 이는 반켤레분포 또는 조건부 켤레분포일 뿐 켤레분포는 아니다.

p(\mathbf{\mu}, \mathbf{\Sigma}) = p(\mathbf{\Sigma}) p(\mathbf{\mu} | \mathbf{\Sigma}) 의 형태로 풀어 쓰면 다음의 정규 역위샤트 분포(NIW)를 얻게 되고 이는 켤레분포이다. $latex p(\mathbf{\mu}, \mathbf{\Sigma})

\mathrm{NIW}(\mathbf{\mu}, \mathbf{\Sigma} | \mathbf{m}_{0}, \kappa_{0}, \nu_{0}, \mathbf{S}_{0}) = \mathcal{N}(\mathbf{\mu} | \mathbf{m}_{0}, \frac{1}{\kappa_{0}}\mathbf{\Sigma}) \mathrm{IW}(\mathbf{\Sigma} | \mathbf{S}_{0}, \nu_{0})

= \frac{1}{2^{\frac{\nu_{0} D}{2}} \pi^{\frac{D(D-1)}{4}}} \prod_{i=1}^{D} \Gamma(\frac{\nu_{0} + 1 - i}{2}) (\frac{2 \pi}{\kappa_{0}})^{\frac{D}{2}} |\mathbf{S}_{0}|^{-\frac{\nu_{0}}{2}  } |\mathbf{\Sigma}|^{-\frac{\nu_{0} + D + 2}{2}} e^{-\frac{\kappa_{0}}{2} (\mathbf{\mu} - \mathbf{m}_{0})^{T} \mathbf{\Sigma}^{-1} ( \mathbf{\mu} - \mathbf{m}_{0}) - \frac{1}{2} \mathrm{tr} (\mathbf{\Sigma}^{-1} \mathbf{S}_{0})}

여기서 \mathbf{m}_{0}\mathbf{\mu}의 사전평균이고, \kappa_{0}은 이 사전분포의 세기이다. \mathbf{S}_{0}\mathbf{\Sigma}_{0}의 사전평균이고, \nu_{0}은 이 사전분포의 세기이다.

비정보적 사전분포는 |\mathbf{\Sigma}|^{-(\frac{D}{2} + 1)} 이다. 약정보적 사전분포는 \mathbf{S}_{0} = \frac{\mathrm{diag}(\mathbf{S}_{\bar{x}})}{N} , \nu_{0} = D + 2 , \mathbf{\nu}_{0} = \bar{\mathbf{x}} 을 쓰고 \mathbf \kappa_{0}은 작은 숫자를 사용한다.

4.6.3.3. Posterior

사후분포는 인자가 업데이트된 NIW 분포이다.

p(\mathbf{\mu}, \mathbf{\Sigma} | \mathcal{D}) = \mathrm{NIW}(\mathbf{\mu}, \mathbf{\Sigma} | \mathbf{m}_{N}, \kappa_{N}, \nu_{N}, \mathbf{S}_{N}) ,

\mathbf{m}_{N} = \frac{\kappa_{0}}{\kappa_{0} + N} \mathbf{m}_{0} + \frac{N}{\kappa_{0} + N} \bar{\mathbf{x}} .

\kappa_{N} = \kappa_{0} + N ,

\nu_{N} = \nu_{0} + N ,

\mathbf{S}_{N} = \mathbf{S}_{0} + \sum_{i=1}^{N} \mathbf{x}_{i} \mathbf{x}_{i}^{T} + \kappa_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{T} - \kappa_{N}  \mathbf{m}_{N} \mathbf{m}_{N}^{T}

이를 해석하자면, 사후평균은 사전평균과 최대가능도근사의 가중평균이고, 사후산포행렬은 사전산포행렬에 실측산포행렬을 더하고 평균의 불확실성에 대한 항을 더한 것이라고 볼 수 있다.

4.6.3.4. Posterior mode

사후최빈값은 다음과 같다.

\mathrm{argmax} p(\mathbf{\mu}, \mathbf{\Sigma} | \mathcal{D}) = (\mathbf{m}_{N}, \frac{\mathbf{S}_{N}}{\nu_{N} + D + 2})

4.6.2.1에서 구한 \mathbf{\Sigma}의 사후최빈값과는 분모에서 1만 차이가 남을 알 수 있다. 이는 주변분포의 최빈값이 아닌 결합분포의 최빈값이 되기 때문에 생기는 차이이다.

4.6.3.5. Posterior marginals

공분산의 사후주변분포는 다음과 같다.

p(\mathbf{\Sigma} | \mathcal{D}) = \int p(\mathbf{\mu}, \mathbf{\Sigma} | \mathcal{D}) d \mathbf{\mu} = \mathrm{IW}( \mathbf{\Sigma} | \mathbf{S}_{N}, \nu_{N})

최빈값은 \hat{\mathbf{\Sigma}}_{\mathrm{MAP}} = \frac{\mathbf{S}_{N}}{\nu_{N} + D + 1}, 평균은 \mathbb{E}[\mathbf{\Sigma}] = \frac{\mathbf{S}_{N}}{\nu_{N} - D - 1} 이다.

평균의 사후주변분포는 다변수 스튜던트 t 분포이다.

p(\mathbf{\mu} | \mathcal{D}) = \int p(\mathbf{\mu}, \mathbf{\Sigma} | \mathcal{D}) d \mathbf{\Sigma} = \mathcal{T}( \mathbf{\mu} | \mathbf{m}_{N}, \frac{1}{\kappa_{N}(\nu_{N} - D + 1)}\mathbf{S}_{N}, \nu_{N} - D + 1)

4.6.3.6. Posterior predictive

사후예측분포는 다음과 같으며, 이는 다변수 스튜던트 t 분포이다.

p(\mathbf{x} | \mathcal{D}) = \frac{p(\mathbf{x}, \mathcal{D})}{p(\mathcal{D})}

p(\mathbf{x} | \mathcal{D}) = \mathcal{T}( \mathbf{x} | \mathbf{m}_{N}, \frac{\kappa_{N} + 1}{\kappa_{N}(\nu_{N} - D + 1)}\mathbf{S}_{N}, \nu_{N} - D + 1)

4.6.3.7. Posterior for scalar data

1차원 케이스를 보자. 4.6.2.2에서처럼 정규역위샤트 분포가 아닌 정규역카이제곱 분포를 사용한다:

\mathrm{NI}\chi^{2} (\mu, \sigma^{2} | m_{0}, \kappa_{0}, \nu_{0}, \sigma_{0}^{2}) = \mathcal{N} (\mu | m_{0}, \frac{\sigma^{2}}{\kappa_{0}} )\chi^{-2} (\sigma^{2} | \nu_{0}, \sigma_{0}^{2}) \propto (\frac{1}{\sigma^{2}})^{\frac{\nu_{0}+3}{2}} e^{-\frac{\nu_{0} \sigma_{0}^{2} + \kappa_{0}(\mu - m_{0})^{2}}{2 \sigma^{2}}}

여러 정규역카이제곱(NIX) 분포.

이 때 사후분포는 다음과 같다:

p(\mu, \sigma^{2} | \mathcal{D}) =  \mathrm{NI}\chi^{2} (\mu, \sigma^{2} | m_{N}, \kappa_{N}, \nu_{N}, \sigma_{N}^{2}) ,

m_{N} = \frac{\kappa_{0} m_{0} + N \bar{x}}{\kappa_{N}} ,

\kappa_{N} = \kappa_{0} + N ,

\nu_{N} = \nu_{0} + N ,

\nu_{N}\sigma_{N}^2 = \nu_{0}\sigma_{0}^2 + \sum_{i=1}^{N} (x_{i} - \bar{x})^{2} + \frac{N \kappa_{0}}{\kappa_{0} + N} (m_{0} - \bar{x})^{2} ,

사후주변분포는 다음과 같다.

p(\sigma^{2} | \mathcal{D}) = \chi^{-2} (\sigma^{2} | \nu_{N}, \sigma_{N}^{2})

p(\nu | \mathcal{D}) = \mathcal{T} (\mu | m_{N}, \frac{\sigma_{N}^{2}}{\kappa_{N}}, \nu_{N})

비정보형 사전분포는 p(\nu, \sigma^{2}) \propto \sigma^{-2} 인데, 이를 사용할 때의 사후분포는 p(\mu, \sigma^{2} | \mathcal{D}) =  \mathrm{NI}\chi^{2} (\mu, \sigma^{2} | m_{N} = \bar{x}, \kappa_{N} = N, \nu_{N} = N - 1, \sigma_{N}^{2} = s^{2}) 가 된다.

여기서 s^{2} = \frac{N}{N-1} \hat{\sigma}_{\mathrm{MLE}}^{2} 표본표준편차이다. 이 경우 평균에 대한 사후주변분포는 p(\mu | \mathcal{D}) = \mathcal{T} (\mu | \hat{x}, \frac{s^{2}}{N}, N - 1)가 되고, 사후분산은 \frac{N-1}{N-3} \frac{s^{2}}{N}이다. 이를 제곱근한 것을 평균표준오차라고 한다. 평균의 95% 사후신용구간\bar{x} \pm 2 \frac{s}{\sqrt{N}} 이다.

4.6.3.8. Bayesian t-test

어떤 값 x_{i} \sim \mathcal{N}(\mu, \sigma^{2}) 에 대해 \mu \neq \mu_{0} 인지를 검사하는 것을 양방향 단일표본 t-테스트라 한다. 간단한 방법은 95% 신용구간에 \mu_{0}이 포함되는지를 검사하는 것이다. 이를 확장한 것으로 두 표본집단의 평균이 같은지를 검사하는 법이 있는데, 분산이 같다고 가정할 때에는 \mu = \mu_{1} - \mu_{2} > 0인지를 x_{i} = y_{i} - z_{i}를 이용해 검사한다. 이를 단방향 쌍표본 t-테스트라 한다.

비정보 사전분포를 사용한다고 가정할 때, t 통계량 t = \frac{\sqrt{N}(\bar{x} - \mu_{0})}{s}을 정의하면 사후주변분표는 p(\mu | \mathcal{D}) = 1 - F_{N-1}(t) 이 된다.

4.6.3.9. Connection with frequentist statistics

비정보 사전분포를 사용할 경우 4.6.3.8.의 베이지안 분석은 빈도주의 분석과 일치하는 결과를 낳는다. 이는 스튜던트 분포가 첫 두 개의 인자인 \bar{x}, \mu에 대해 대칭이기 때문이다. 그러나 이 결과가 가지는 의미는 다르다. 베이지안 분석에서는 \mu가 미지수이고 \bar{x}가 고정이다. 반면에 빈도주의 분석에서는 \bar{X}가 미지수이고 \mu가 고정이다.

4.6.4. Sensor fusion with unknown precisions

정밀도가 다른 2개의 측정기 x_{i} | \mu \sim \mathcal{N}(\mu, \lambda_{x}^{-1}), y_{i} | \mu \sim \mathcal{N}(\mu, \lambda_{y}^{-1}) 로부터 어떠한 값 \mu를 근사한다고 하자.

비정보 사전분포는 p(\mu) \propto 1이다. 이를 사용할 경우 사후분포는 가우시안이다. p(\mu | \mathcal{D}, \lambda_{x}, \lambda_{y}) = \mathcal{N}(\mu | m_{N}, \lambda_{N}^{-1} ,

\lambda_{N} = \lambda_{0} + N_{x} \lambda_{x} + N_{y} \lambda_{y} ,

m_{N} = \frac{ N_{x}\lambda_{x}\bar{x} + N_{y}\lambda_{y}\bar{y} }{N_{x}\lambda_{x} + N_{y}\lambda_{y}}

문제는 정밀도 \lambda_{x}, \lambda_{y}를 모른다는 것이다. 최대가능도근사는 다음과 같다:

\hat{\mu} = \frac{ N_{x}\hat{\lambda}_{x}\bar{x} + N_{y}\hat{\lambda_{y}}\bar{y} }{N_{x}\hat{\lambda_{x}} + N_{y}\hat{\lambda_{y}}} ,

\frac{1}{\hat{\lambda_{x}}} = \frac{1}{N_{x}} \sum_{i=1}^{N} (x_{i} - \hat{\mu})^{2} ,

\frac{1}{\hat{\lambda}_{y}} = \frac{1}{N_{y}} \sum_{i=1}^{N} (y_{i} - \hat{\mu})^{2} ,

이를 고정점 반복법으로 근사하거나, 아니면 베이지안 접근으로 정밀도를 적분해내는 방법으로 푼다.

평균에 대한 사후분포: 대입 근사 vs 정확한 사후분포.

요점 정리

  • 가우시안 모델이란?
  • 가우시안 판별식 분석 : 생성적 분류기의 클래스별 조건부 분포를 가우시안으로 정의했을 때, 데이터의 클래스를 간단히 분류하는 방법.
  • 결합 가우시안 분포 : 두 변수가 결합 가우시안일 때 각각의 변수의 주변분포와 조건분포를 구하는 식.
  • 선형 가우시안 시스템 : 한 변수가 다른 변수에 대한 선형변환으로 주어질 때, 조건부 분포에 관한 베이즈 룰.
  • 위샤트 분포 : 감마 분포의 확장으로서, 가우시안의 공분산 행렬의 분포를 모델링하는 데 사용.
  • 다변수 가우시안의 매개변수 추론.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중