확률분포의 분산
- 확률밀도함수 \(p(x)\)의 수식을 알고 있다면 이론적인 분산을 구할수 있다.
\[\sigma^2 = Var[X] = E[(X-\mu)^2]\]
이산확률변수와 연속확률변수의 분산
- 이산확률 변수의 분산은 평균으로부터 표본 데이터까지 거리의 제곱을 확률질량함수 \(p(x)\)로 가중하여 더한 값이다.
\[\sigma^2 = \sum_{x_i\in\Omega}(x_i - \mu)^2p(x_i)\]
- 연속학률변수의 분산은 평균으로부터 표본 데이터까지 거리의 제곱을 확률밀도함수 \(p(x)\)로 가중하여 적분한 값이다.
\[\sigma^2 = \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx\]
분산의 성질
- 분산은 항상 0또는 양수이다.
\[Var[X] \geq 0\]
- 확률변수가 아닌 상수값 C에 대해 다음식이 성립한다.
\[Var[c] = 0\]
\[Var[cX] = c^2Var[X] \]
- 기대값의 성질을 이용하면
\[Var[X] = E[X^2] - (E[X])^2 = E[X^2] - \mu^2\]
두 확률변수의 합의 분산
- 두 확률변수 \(X,Y\)의 합의 분산은 다음과 같다.
\[Var[X+Y] = Var[X] + Var[Y] + 2E[(X -\mu x)(Y - \mu y)]\]
확률변수의 독립
- 두 확률변수가 독립이면 두 확률변수가 가질수 있는 모든 사건의 조합에 대해 결합사건의 확률이 각 사건의 확률을 곱한것과 같다는 뜻이다.
- 다시말해, 두사건이 서로 영향을 미치지 않는다는 것이다.
- 두 확률변수가 독립이면
\[E[(X-\mu x)(Y - \mu y)] = 0\] 이고
\[Var[X+Y] = Var[X] + Var[Y] \] 이다
표본평균의 분산
- 확률변수 \(X\)의 표본평균 \(\bar X\)도 확률변수이고 그 기대값 은 워래 확률변수 \(X\)의 기대값과 같다.
\[E[\bar X] = E[X]\]
- 하지만 표본평균 \(\bar X\)의 분산 \(Var[\bar X]\)는 원래 확률변수 \(X\)의 분산 \(Var[X]\)와 다음 관계를 가진다.
\[Var[\bar X] = {1\over N}Var[X]\]
- 확률변수 \(X\)의 기대값 \(E[X]\)의 값을 구하기위해, 기대값의 성질을 이용해 \(E[\bar X]\)의 값을 구하고, 이 값은 확률변수 \(X\)의 기대값과 비슷한 값이 나온다.(다만 정확하진 않음)
- 위의 식을 볼때, 표본개수 \(N\)이 많아지면 표본평균 \(\bar x\)의 분산이 아주 작아져 갈수록 기대값 근처의 거의 일정한 값이 나온다.
- 따라서, 표본의 개수 \(N\)개가 크면 표본평균 \(\bar x\)은 원래 확률변수 \(X\)의 기대값 \(E[X]\)의 근사값이라고 할수 있다
표본분산의 기대값
- 표본분산 \(S^2\)의 기대값을 구하면 이론적인 분산 \(\sigma^2\)과 같아지는 것이 아닌, 이론적인 분산값의 \(N -1 \over N\)배가 된다.
- 표본분산값 < 이론적인 분산값
\[E[S^2] = {N -1 \over N} \sigma^2 \]
- 기대값이 정확한 분산값과 일치하는 비편향 표본분산은
\[S^2_{unbiased} \equiv {1 \over N-1} \sum (X_i - \bar X)^2\]
- 표본분산을 계산할 때 사용하는 표본평균의 값이 데이터가 많이 몰려있는 쪽으로 편향되게 나온다. 또한, 데이터가 몰려있는 위치에 있는 표본평균을 기준으로 각 데이터까지의 거리를 계산하면 원래의 기댓값으로부터의 거리보다 작게 나올 수 있다.
비대칭도와 첨도
- 비대칭도 : 3차 모멘트 값에서 계산하고, 비대칭 정도를 나타낸다. 비대칭도가 0이면 확률분포가 대칭이다.
- 첨도 : 4차 모멭느 값에서 계산하고, 확률이 정규분포 대비 얼마나 중심에 모여있는지를 나타낸다.
모멘트
- 기대값(평균)이나 분산, 비대칭도, 첨도등은 확률분포의 모멘트중 하나이다.
- 만약 두 확률분포 \(X,Y\)의 1차부터 무한대차수에 이르는 모멘트 값이 모두 동일하다면, 두 확률분포는 같은 확률분포이다.