이산확률변수 에서 다변수 확률변수
결합확률질량함수
\[P_{XY}(x,y)\]- 결합확률 질량함수에서는 독립변수가 𝑥,𝑦 두 개가 된다. 종속변수는 그 숫자 쌍이 나타날 확률이다.
- \(P_{XY}(2,3)\) 은 \({𝑥=2,𝑦=3}\) 이라는 특정한 숫자 쌍으로만 이루어진 사건의 확률이다. 만약 공정한 주사위 두 개를 던지는 경우라면 결합확률질량함수는 \(1\over 36\)이다.
주변확률질량함수
- 주변확률질량함수(marginal probability mass function)는 두 확률변수 중 하나의 확률변수 값에 대해서만 확률분포를 표시한 함수
조건부확률질량함수
- 조건부확률질량함수(conditional probability mass function)는 다변수 확률변수 중 하나의 값이 특정 값으로 고정되어 상수가 되어 버린 경우, 나머지 변수에 대한 확률질량함수를 말한다. \[P_{X|Y}(x|y) = {P_{XY}(x,y) \over P_X(y)}\]
\[P_{Y|X}(y|x) = {P_{XY}(x,y) \over P_X(x)}\]
- 조건부확률질량함수의 모양은 결합질량함수 \(P_{XY}(x,y)\)에서 \(y\)값이 고정된 함수, 즉, 결합질량함수의 단면과 같아진다. 조건부확률질량함수의 합은 1이 된다.
연속확률변수 에서 다변수 확률변수
연속확률분포에서는 이산확률분포와 같이 단순사건을 이용하여 확률을 정의할 수 없으므로 단변수 연속확률변수처럼 누적확률분포함수(cdf)를 먼저 정의한 후 이를 미분하여 확률밀도함수(pdf)를 정의하는 방법을 사용한다.
결합누적확률분포함수
- 두 연속 확률변수 \(X,Y\)에 대한 결합누적확률분포함수는
\[F_{XY}(x,y) = P({X < x} \cap {Y < y}) = P({X < x, Y < y})\]
- 결합누적확률분포함수의 특성
\[F_{XY}(\infty,\infty) = 1\]
\[F_{XY}(-\infty,y) = F_{XY}(x,-\infty) = 0\]
결합확률밀도함수
- 단변수 확률변수의 경우처럼 결합누적확률분포함수를 미분하여 결합확률밀도함수(joint probability density function)를 정의할 수 있다.
- 독립 변수가 2개이므로 각각 \(x,y\)에 대해모두 편미분(partial differentication)해야 한다.
\[P_{XY} = {\partial^2F_{XY}(x,y) \over \partial x \partial y} \]
- 결합확률밀도함수를 특정 구간에 대해 적분하면 해당 구간에 대한 확률이 된다.
\[ \int_{x_1}^{x_2} \int_{y_1}^{y_2} P_{XY}(x,y)dxdy = P(\{x_1 \leq X \leq x_2,y_1 \leq Y \leq y_2\})\]
- 결합확률밀도함수를 모든 변수에 대해 적분하면 1이된다.
\[\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} P_{XY}(x,y)dxdy = 1\]
주변확률밀도함수
주변확률밀도함수(marginal probability density function)는 결합확률밀도함수를 특정한 하나의 변수에 대해 가중평균한 값을 말한다. 따라서 결합확률밀도함수를 하나의 확률변수에 대해서만 적분하여 구한다.
그래프를 밀가루 반죽이라고 생각하고 \(x\) 혹은 \(y\) 방향으로 밀어서 눌렀다고 생각
\[P_X(x) = \int_{-\infty}^{\infty} P_{XY}(x,y)dy\]
\[P_Y(y) = \int_{-\infty}^{\infty} P_{XY}(x,y)dx\]
조건부확률밀도함수
조건부확률밀도함수(conditional probability density function)는 다변수 확률변수 중 하나의 값이 특정 값이라는 사실이 알려진 경우, 이러한 조건(가정)에 의해 변화한 나머지 확률변수에 대한 확률밀도함수를 말한다.
그래프를 밀가루 반죽이라고 생각하고 \(x\)또는 \(y\)값의 위치를 칼로 잘라낸 단면이라고 생각
\[ P_{X|Y}(x|y) = {P_{XY}(x,y) \over P_y(y)}\]
\[ P_{Y|X}(y|x) = {P_{XY}(x,y) \over P_X(x)}\]
- 조건부확률밀도함수에서 조건이 되는 확률변수의 값은 특정한 값으로 고정되어 있으므로 변수가 아니라 모수로 생각할 수 있다. 예를 들어 \(P_{X|Y}(x|y)\) 에서 \(y\) 의 값은 고정되어 있으므로 이 값은 \(x\)의 함수가 된다.
독립과 상관관계
- 확률변수 \(X\)의 표본값이 달라져서 다른 확률변수\(Y\)의 조건부 분포 모양이 달라질때 서로 상관관계라 한다.
- 두 확률변수가 상관 관계가 아니면 서로 독립(independent)이라고 한다.
- 두 확률변수 \(X,Y\) 의 결합확률밀도함수(joint pdf)가 주변확률밀도함수(marginal pdf)의 곱과 같으면 서로 독립(independent)이다.
\[P_{XY}(x,y) = P_X(x)P_Y(y)\]
- 분리가능 다변수 함수 참고
- 이 법칙은 확률변수가 두개 이상이어도 성립된다.
반복시행
- 같은 확률변수에서 복수의 표본 데이터를 취하는 경우에는 이 표본들은 서로 독립인 확률변수에서 나온 표본으로 볼수있다.
- 확률밀도 함수가 \(f(x)\)이고 표본 데이터가 \(\{x_1,x_2,x_3,\dots,x_N \}\)이면 이 데이터, 즉 벡터 \((x_1,x_2,x_3,\dots,x_N)\)이 나올 확률은
\[p(x_1,x_2,x_3,\dots,x_N)= \prod_{i=1}^N p(x_i)\]
조건부 확률분포
- 독립인 두 확률변수 \(X,Y\)의 조건부확률밀도함수 = 주변확률밀도함수
- 서로 독립이면 영향을 주지 않기 때문에, "조건부"라는것이 성립자체가 안됨
- pdf의 모양을 보고 독립여부를 판단할수 있어야 한다.
- pdf그래프의 밀가루 산을 어느 위치에서 칼로 잘라도(\(x\)값을 변경해도)크기는 다르지만 스케일링 한후의 모양이 동일하다면, \(x\)가 \(y\)의 값에 영향을 주지않는다고 볼수있기 때문에, 독립이다.
\[P_{X|Y}(x|y) = {P_{XY}(x,y) \over P_Y(y)} = {P_X(x)P_Y(y) \over P_Y(y)} = P_X(x)\]
\[P_{Y|X}(y|x) = {P_{XY}(x,y) \over P_X(x)} = {P_X(x)P_Y(y) \over P_X(x)} = P_Y(y)\]
독립 확률변수의 기대값 성질
- 앞장에서 다뤘던 독립인 두 확률변수의 기대값 성질을 되짚어 보면
\[E[XY] = E[X]E[Y]\]
\[E[(X - \mu X)(Y - \mu Y)] = 0\]
독립 확률변수의 분산
- 독립인 두 확률변수 \(X,Y\)의 분산은
\[Var[X + Y] = Var[X] + Var[Y]\]