정규분포(normal distribution)
- 자연 현상에서 나타나는 숫자를 확률모형으로 모형화 할때 사용한다.
- 정규분포는 평균 \(\mu\)와 분산\(\sigma^2\)이라는 두 모수만으로 정의된다.
- 정규분포의 확률밀도함수(pdf)
\[\mathcal{N}(x;\mu,\sigma^2) = {1 \over \sqrt{2\pi\sigma^2}}\exp\left(-{(x-\mu)^2\over 2\sigma^2}\right) \]
표준정규분포(standard normal distribution)
- 정규분포 중에서 평균이 0이고 분산이 1인\((\mu = 0, \sigma^2 = 1)\)정규분포를 표준정규분포라고 한다.
- 표준정규분포의 확률밀도함수의 값\(x\)는
- \(x = \mu\)일때 확률밀도가 최대가 된다.
- \(x = \infty\)로 다가가거나 \(x = -\infty\)로 다가갈수록 확률밀도가 작아진다.
로그정규분포
- 데이터에 로그를 한 값 또는 변화율이 정규분포가 되는 분포를 말한다.
- 로그정규분포를 띄는 데이터는 항상 양수다. 따라서 로그변환한 다음 사용한다.
Q-Q플롯
- 어떤 확률변수의 분포가 정규분포인지를 판단하는 방법.
- 표본데이터의 분포와 정규분포의 분포형태를 비교하는 시각적 도구.
중심극한정리(Central Limit Theorem)
- 여러 확률변수의 합이 정규분포와 비슷한 분포를 이루는 현상을 말한다.
- 확률이론의 중심이라고 말할정도로 중요하다고 해서 "중심"이라는 표현을 사용함.
- 중심극한정리 > \(N\)개의 임의의 분포로부터 얻은 표본의 평균은 \(N\)이 증가할수록 기대값이 \(\mu\), 분산이 \(\sigma^2 \over N\)인 정규분포로 수렴한다.
\[\bar X_N \buildrel d \over \rightarrow \mathcal{N} \left(x;\mu,{\sigma^2\over N} \right)\]
$d $는 표본개수 \(N\)이 커질수록 분포의 모양이 특정한 분포(여기선 정규분포)에 수렴한다는 뜻.
평균이 0, 분산이 1이 되도록 표준정규분포로 정규화 하면 > \(N\)개의 임의의 분포로 부터 얻은 표본의 평균을 정규화하면 \(N\)이 증가할수록 표준정규분포로 수렴한다.
\[{\bar X_N - \mu \over{\sigma \over \sqrt N}}\buildrel d \over \rightarrow \mathcal{N}(x;0,1)\]
정규분포의 통계량 분포
- 임의의 분포가 아닌 정규분포로 부터 데이터를 얻으면 > \(N\)개의 정규분포로부터 얻은 표본의 합은 \(N\)과 상관없이 기대값이 \(N\mu\),분산이 \(N\sigma^2\)인 정규분포다
\[x_i \sim \mathcal{N}(\mu,\sigma^2) \rightarrow \sum_{i=1}^{N}x_i \sim \mathcal{N}(N\mu,N\sigma^2)\]
- 정규분포의 표본에 상수를 빼거나 곱해도 표본은 여전히 정규분포를 따른다. 따라서 표준정규분포로 정규화 할수 있다. 이떄, 정규분포 표본의 평균을 정규화한 통계량을 \(z\)통계량이라고 한다.
\[x_i \sim \mathcal{N}(\mu,\sigma^2) \rightarrow z = {\bar x - \mu \over{\sigma \over \sqrt N}}\sim \mathcal{N}(x;0,1)\]
- 중심극한정리에서는 표준정규분포로 점점 다가갈 뿐이고, 표본개수가 무한대가 되기 전에는 정확한 정규분포가 아니다.
- \(z\)통계량은 개수 N에 상관없이 항상 정확하게 표준정규분포 이다.
선형회귀모형과 정규분포
- 정규분포는 선형회귀모형에서 잡음 \(\epsilon\)을 모형화 하는데 사용된다.
- 선형회귀모형이란 입력번수 \(x_1,\dots,x_N\)이 종속변수 \(y\)에 선형적으로 영향을 미치는 모형이다. \[y = w_1x_1 + \dots + w_Nx_n + \epsilon\]
- 이떄 잡음 \(\epsilon\)은 우리가 측정할수 없는 양이다. 선형회귀모형을 만들때, 측정하기 힘들어 무시하는 무한한 변수들의 영향을 하나로 합친것이 잡음이다.
- 중심극한정리에 의해 임의의 확률변수의 합은 정규분포와 비슷한 형태가 되고, 여기서 잡음 \(\epsilon\)또한 기대값이 0인 정규분포라고 가정하고 갈수 있다.
\[\epsilon \sim \mathcal{N}(0,\sigma^2)\]