분산과 표준편차란? | Howard's nest

0%

분산과 표준편차란?

Posted on 2020-02-07 Edited on 2020-06-30 In TIL.. , Math , 확률 Disqus:

확률분포의 분산

확률밀도함수 \(p(x)\)의 수식을 알고 있다면 이론적인 분산을 구할수 있다.

\[\sigma^2 = Var[X] = E[(X-\mu)^2]\]

이산확률변수와 연속확률변수의 분산

이산확률 변수의 분산은 평균으로부터 표본 데이터까지 거리의 제곱을 확률질량함수 \(p(x)\)로 가중하여 더한 값이다.

\[\sigma^2 = \sum_{x_i\in\Omega}(x_i - \mu)^2p(x_i)\]

연속학률변수의 분산은 평균으로부터 표본 데이터까지 거리의 제곱을 확률밀도함수 \(p(x)\)로 가중하여 적분한 값이다.

\[\sigma^2 = \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx\]

분산의 성질

분산은 항상 0또는 양수이다.

\[Var[X] \geq 0\]

확률변수가 아닌 상수값 C에 대해 다음식이 성립한다.

\[Var[c] = 0\]

\[Var[cX] = c^2Var[X] \]

기대값의 성질을 이용하면

\[Var[X] = E[X^2] - (E[X])^2 = E[X^2] - \mu^2\]

두 확률변수의 합의 분산

두 확률변수 \(X,Y\)의 합의 분산은 다음과 같다.

\[Var[X+Y] = Var[X] + Var[Y] + 2E[(X -\mu x)(Y - \mu y)]\]

확률변수의 독립

두 확률변수가 독립이면 두 확률변수가 가질수 있는 모든 사건의 조합에 대해 결합사건의 확률이 각 사건의 확률을 곱한것과 같다는 뜻이다.
다시말해, 두사건이 서로 영향을 미치지 않는다는 것이다.
두 확률변수가 독립이면

\[E[(X-\mu x)(Y - \mu y)] = 0\] 이고

\[Var[X+Y] = Var[X] + Var[Y] \] 이다

표본평균의 분산

확률변수 \(X\)의 표본평균 \(\bar X\)도 확률변수이고 그 기대값 은 워래 확률변수 \(X\)의 기대값과 같다.

\[E[\bar X] = E[X]\]

하지만 표본평균 \(\bar X\)의 분산 \(Var[\bar X]\)는 원래 확률변수 \(X\)의 분산 \(Var[X]\)와 다음 관계를 가진다.

\[Var[\bar X] = {1\over N}Var[X]\]

확률변수 \(X\)의 기대값 \(E[X]\)의 값을 구하기위해, 기대값의 성질을 이용해 \(E[\bar X]\)의 값을 구하고, 이 값은 확률변수 \(X\)의 기대값과 비슷한 값이 나온다.(다만 정확하진 않음)
위의 식을 볼때, 표본개수 \(N\)이 많아지면 표본평균 \(\bar x\)의 분산이 아주 작아져 갈수록 기대값 근처의 거의 일정한 값이 나온다.
따라서, 표본의 개수 \(N\)개가 크면 표본평균 \(\bar x\)은 원래 확률변수 \(X\)의 기대값 \(E[X]\)의 근사값이라고 할수 있다

표본분산의 기대값

표본분산 \(S^2\)의 기대값을 구하면 이론적인 분산 \(\sigma^2\)과 같아지는 것이 아닌, 이론적인 분산값의 \(N -1 \over N\)배가 된다.
표본분산값 < 이론적인 분산값

\[E[S^2] = {N -1 \over N} \sigma^2 \]

기대값이 정확한 분산값과 일치하는 비편향 표본분산은

\[S^2_{unbiased} \equiv {1 \over N-1} \sum (X_i - \bar X)^2\]

표본분산을 계산할 때 사용하는 표본평균의 값이 데이터가 많이 몰려있는 쪽으로 편향되게 나온다. 또한, 데이터가 몰려있는 위치에 있는 표본평균을 기준으로 각 데이터까지의 거리를 계산하면 원래의 기댓값으로부터의 거리보다 작게 나올 수 있다.

비대칭도와 첨도

비대칭도 : 3차 모멘트 값에서 계산하고, 비대칭 정도를 나타낸다. 비대칭도가 0이면 확률분포가 대칭이다.
첨도 : 4차 모멭느 값에서 계산하고, 확률이 정규분포 대비 얼마나 중심에 모여있는지를 나타낸다.

모멘트

기대값(평균)이나 분산, 비대칭도, 첨도등은 확률분포의 모멘트중 하나이다.
만약 두 확률분포 \(X,Y\)의 1차부터 무한대차수에 이르는 모멘트 값이 모두 동일하다면, 두 확률분포는 같은 확률분포이다.