3. Probability and Information Theory

확률론과 정보론 기초를 다뤄보자.

3.1. Why Probability?

기계학습은 불확실한 양을 다루는 학문이기 떄문에 확률론은 중요하다. 믿음의 정도를 발생하는 사건의 비율과 직접적으로 관련짓는 확률론을 빈도학파 확률론, 정성적 확실성과 관련짓는 확률론을 베이지안 확률론이라 한다.

3.2. Random Variables

확률변수는 무작위로 다른 값을 가질 수 있는 변수이다.

3.3. Probability Distributions

확률분포는 하나 이상의 확률변수가 가질 수 있는 값들의 확률을 나타내는 분포이다.

3.3.1 Discrete Variables and Probability Mass Functions

이산변수의 확률분포를 확률질량함수라 한다. 이것이 여러 변수에 동시에 작용하는 경우 이를 결합확률분포라 한다. 확률질량의 합은 1이며 이 특성을 확률분포의 표준화라 한다. 확률질량이 균등한 경우를 균등분포라 한다.

3.3.2. Continuous Variables and Probability Density Functions

연속변수의 확률분포를 확률밀도함수라 한다.

3.4. Marginal Probability

여러 변수에 대한 확률분포함수에 대해 이 분포함수의 확률변수들 중 일부분에 대한 분포만 알고 싶을 때 이를 주변확률분포라 한다. 이는 합 법칙으로 구한다.

3.5. Conditional Probability

다른 사건이 발생한 것을 전제로 사건의 확률을 구하는 것을 조건부확률이라 한다. 이는 개입 요청에 따른 인과 모델링과는 다른 것이다.

3.6. The Chain Rule of Conditional Probabilities

다수의 확률변수에 대한 결합확률분포를 조건부확률분포로 분해하는 것을 연쇄 법칙 또는 곱 법칙이라 한다.

3.7. Independence and Conditional Independence

두 확률변수에 대한 확률분포가 확률변수들 각각에 대한 확률분포의 곱으로 분해가능할 때 이를 독립이라 한다. 두 확률변수에 대한 조건부확률분포가 확률변수들 각각에 대한 조건부확률분포의 곱으로 분해가능할 때 이를 조건부독립이라 한다.

3.8. Expectation, Variance and Covariance

함수 f(x)의 확률분포 P(x)에 대한 기대치(기대값)은 확률변수 각각의 값에 대해 확률분포의 값을 곱해 더한 가중치합이다. 함수의 분산은 확률변수의 함수가 확률변수를 확률분포에서 추출했을 때 함수값이 얼마나 분산되는지를 나타내는 값이다. 분산의 제곱근을 표준편차라 한다. 공분산은 두 값이 얼마나 선형적으로 관계되었는지를 나타내는 값이다. 이와 비슷한 척도로 상관 계수도 있다. 확률변수벡터의 공분산행렬은 각각 원소들간 공분산으로 이루어진 행렬이다.

3.9. Common Probability Distributions

널리 알려진 확률분포들을 알아보자.

3.9.1. Bernoulli Distribution

베르누이 분포는 단일 이진 변수에 대한 확률분포 P(x=1) = \phi이다.

3.9.2. Multinoulli Distribution

다중 베르누이 또는 범주 분포는 단일 k진 변수에 대한 확률분포이다.

3.9.3. Gaussian Distribution

정규분포 또는 가우시안 분포\mathcal{N}(x;\mu, \sigma^{2}) = \sqrt{\frac{1}{2 \pi \sigma^{2}}}e^{-\frac{1}{2 \sigma^{2}}(x - \mu)^{2}}이다. \beta = \frac{1}{\sigma^{2}}정밀도로 놓아 매개화하기도 한다. 중심 극한 정리는 상호 독립적인 확률분포의 합은 근사적으로 정규분포에 가깝다는 것을 나타낸다. 다변수에 대한 다변수 정규분포도 존재한다. 이는 정밀도 행렬로도 매개화된다. 공분산 행렬이 단위행렬의 배수일 때 이를 등방성 가우시안 분포라 한다.

3.9.4. Exponential and Laplace Distribution

x = 0에서 뾰족한 점을 갖는 분포로 지수 분포 p(x ;\lambda) = \lambda \mathbf{1}_{x \geq 0} e^{-\lambda x}이 있다. 비슷한 분포로 \mu에서 뾰족한 점을 갖는 라플라스 분포 \frac{1}{2 \gamma} e^{-\frac{\lvert x - \mu \rvert}{\gamma}}이 있다.

3.9.5. The Dirac Distribution and Empirical Distribution

단일 점에 확률밀도가 모여 있는 함수로 디랙 델타 함수 p(x) = \delta(x - \mu)가 있다. 이는 함수라기보단 일반화된 함수족이다. 이는 실측 빈도를 나타내는 실측 분포 \hat{p}(\mathbf{x}) = \frac{1}{m} \sum_{i=1}^{m} \delta(\mathbf{x} - \mathbf{x}_{i})에 쓰인다.

3.9.6. Mixtures of Distributions

분포들의 혼합 분포를 생각할 수 있는데 이는 잠재 변수의 개념을 나타내는 데 쓸 수 있다. 가우시안 혼합 모델이 흔히 쓰이는데, 이의 매개변수는 각 요소에 대한 사전분포를 특정한다. 이에 대응되는 개념으로 사후분포도 있다. 가우시안 혼합 모델은 범용 근사가 가능하다.

3.10. Useful Properties of Common Functions

로지스틱 시그모이드 함수 \sigma(x) = \frac{1}{1 + e^{-x}}은 로지스틱 회귀에 폭넓게 쓰인다. 이는 큰 양수와 큰 음수를 포화시키는 특성이 있다. 관계된 함수로 소프트플러스 함수가 있다. 시그모이드의 역함수를 로짓이라 한다. 소프트플러스는 양수부 함수의 다듬질된 상태라 볼 수 있다. 이의 상보적 함수는 음수부 함수이다.

3.11. Bayes’ Rule

P(x | y) = \frac{P(x) P(y | x)}{P(y)}베이즈 룰이라 한다.

3.12. Technical Details of Continuous Variables

연속확률변수의 기술적 세부 사항을 이해하려면 측도론에 대한 이해가 필요하다. 이는 무시할 만큼 작은 점들의 집합을 영측도로 묘사하고 이것을 여집합으로 갖는 집합을 거의 모든 점에서의 집합이라 한다. 확률변수간 변환시 변환척도는 고차원에서 자코비안 행렬로 일반화된다.

3.13. Information Theory

정보론에서 가장 기본적인 개념은 자가정보량 I(x) = -\log P(x)이다. 로그의 밑이 e일 때 이를 내츠, 2일 때를 비트 또는 샤논으로 측정된다 한다. H(x) = \mathbb{E}_{x \sim P}[I(x)]샤논 엔트로피라 한다. x가 연속일 때 이는 미분 엔트로피라고도 한다. 두 분포간 차이를 나타내는 척도로 쿨백-라이블러 발산 D_{KL}(P \lVert Q) = \mathbb{E}_{x \sim P}[\log \frac{P(x)}{Q(x)}]이라 한다. 이와 연관된 양으로 교차 엔트로피 H(P, Q) = H(P) + D_{KL}(P \lVert Q)가 있다.

3.14. Structured Probabilistic Models

확률분포의 분해를 그래프로 나타내어질 수 있을 때 이를 구조화된 확률 모델 또는 그래프 모델이라 한다. 이것이 방향그래프일 경우 방향 모델, 비방향그래프일 경우 비방향 모델이라 한다. 확률변수의 배치 형태에 대한 확률은 이러한 확률 인자의 곱에 비례한다. 방향/비방향 여부는 확률분포 그 자체의 특성이 아니라 특정한 표현 방식일 뿐이다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중