0%

다변수 확률변수란?

이산확률변수 에서 다변수 확률변수

  • 결합확률질량함수

    \[P_{XY}(x,y)\]
    • 결합확률 질량함수에서는 독립변수가 𝑥,𝑦 두 개가 된다. 종속변수는 그 숫자 쌍이 나타날 확률이다.
    • \(P_{XY}(2,3)\)\({𝑥=2,𝑦=3}\) 이라는 특정한 숫자 쌍으로만 이루어진 사건의 확률이다. 만약 공정한 주사위 두 개를 던지는 경우라면 결합확률질량함수는 \(1\over 36\)이다.
  • 주변확률질량함수

    • 주변확률질량함수(marginal probability mass function)는 두 확률변수 중 하나의 확률변수 값에 대해서만 확률분포를 표시한 함수
  • 조건부확률질량함수

    • 조건부확률질량함수(conditional probability mass function)는 다변수 확률변수 중 하나의 값이 특정 값으로 고정되어 상수가 되어 버린 경우, 나머지 변수에 대한 확률질량함수를 말한다. \[P_{X|Y}(x|y) = {P_{XY}(x,y) \over P_X(y)}\]

    \[P_{Y|X}(y|x) = {P_{XY}(x,y) \over P_X(x)}\]

    • 조건부확률질량함수의 모양은 결합질량함수 \(P_{XY}(x,y)\)에서 \(y\)값이 고정된 함수, 즉, 결합질량함수의 단면과 같아진다. 조건부확률질량함수의 합은 1이 된다.

연속확률변수 에서 다변수 확률변수

연속확률분포에서는 이산확률분포와 같이 단순사건을 이용하여 확률을 정의할 수 없으므로 단변수 연속확률변수처럼 누적확률분포함수(cdf)를 먼저 정의한 후 이를 미분하여 확률밀도함수(pdf)를 정의하는 방법을 사용한다.

  • 결합누적확률분포함수

    • 두 연속 확률변수 \(X,Y\)에 대한 결합누적확률분포함수는

    \[F_{XY}(x,y) = P({X < x} \cap {Y < y}) = P({X < x, Y < y})\]

    • 결합누적확률분포함수의 특성

    \[F_{XY}(\infty,\infty) = 1\]

    \[F_{XY}(-\infty,y) = F_{XY}(x,-\infty) = 0\]

    • 결합확률밀도함수

      • 단변수 확률변수의 경우처럼 결합누적확률분포함수를 미분하여 결합확률밀도함수(joint probability density function)를 정의할 수 있다.
      • 독립 변수가 2개이므로 각각 \(x,y\)에 대해모두 편미분(partial differentication)해야 한다.

      \[P_{XY} = {\partial^2F_{XY}(x,y) \over \partial x \partial y} \]

      • 결합확률밀도함수를 특정 구간에 대해 적분하면 해당 구간에 대한 확률이 된다.

      \[ \int_{x_1}^{x_2} \int_{y_1}^{y_2} P_{XY}(x,y)dxdy = P(\{x_1 \leq X \leq x_2,y_1 \leq Y \leq y_2\})\]

      • 결합확률밀도함수를 모든 변수에 대해 적분하면 1이된다.

      \[\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} P_{XY}(x,y)dxdy = 1\]

    • 주변확률밀도함수

      • 주변확률밀도함수(marginal probability density function)는 결합확률밀도함수를 특정한 하나의 변수에 대해 가중평균한 값을 말한다. 따라서 결합확률밀도함수를 하나의 확률변수에 대해서만 적분하여 구한다.

      • 그래프를 밀가루 반죽이라고 생각하고 \(x\) 혹은 \(y\) 방향으로 밀어서 눌렀다고 생각

      \[P_X(x) = \int_{-\infty}^{\infty} P_{XY}(x,y)dy\]

      \[P_Y(y) = \int_{-\infty}^{\infty} P_{XY}(x,y)dx\]

    • 조건부확률밀도함수

      • 조건부확률밀도함수(conditional probability density function)는 다변수 확률변수 중 하나의 값이 특정 값이라는 사실이 알려진 경우, 이러한 조건(가정)에 의해 변화한 나머지 확률변수에 대한 확률밀도함수를 말한다.

      • 그래프를 밀가루 반죽이라고 생각하고 \(x\)또는 \(y\)값의 위치를 칼로 잘라낸 단면이라고 생각

      \[ P_{X|Y}(x|y) = {P_{XY}(x,y) \over P_y(y)}\]

      \[ P_{Y|X}(y|x) = {P_{XY}(x,y) \over P_X(x)}\]

      • 조건부확률밀도함수에서 조건이 되는 확률변수의 값은 특정한 값으로 고정되어 있으므로 변수가 아니라 모수로 생각할 수 있다. 예를 들어 \(P_{X|Y}(x|y)\) 에서 \(y\) 의 값은 고정되어 있으므로 이 값은 \(x\)의 함수가 된다.

독립과 상관관계

  • 확률변수 \(X\)의 표본값이 달라져서 다른 확률변수\(Y\)의 조건부 분포 모양이 달라질때 서로 상관관계라 한다.
  • 두 확률변수가 상관 관계가 아니면 서로 독립(independent)이라고 한다.
  • 두 확률변수 \(X,Y\) 의 결합확률밀도함수(joint pdf)가 주변확률밀도함수(marginal pdf)의 곱과 같으면 서로 독립(independent)이다.

\[P_{XY}(x,y) = P_X(x)P_Y(y)\]

  • 분리가능 다변수 함수 참고
  • 이 법칙은 확률변수가 두개 이상이어도 성립된다.

반복시행

  • 같은 확률변수에서 복수의 표본 데이터를 취하는 경우에는 이 표본들은 서로 독립인 확률변수에서 나온 표본으로 볼수있다.
  • 확률밀도 함수가 \(f(x)\)이고 표본 데이터가 \(\{x_1,x_2,x_3,\dots,x_N \}\)이면 이 데이터, 즉 벡터 \((x_1,x_2,x_3,\dots,x_N)\)이 나올 확률은

\[p(x_1,x_2,x_3,\dots,x_N)= \prod_{i=1}^N p(x_i)\]

조건부 확률분포

  • 독립인 두 확률변수 \(X,Y\)의 조건부확률밀도함수 = 주변확률밀도함수
  • 서로 독립이면 영향을 주지 않기 때문에, "조건부"라는것이 성립자체가 안됨
  • pdf의 모양을 보고 독립여부를 판단할수 있어야 한다.
    • pdf그래프의 밀가루 산을 어느 위치에서 칼로 잘라도(\(x\)값을 변경해도)크기는 다르지만 스케일링 한후의 모양이 동일하다면, \(x\)\(y\)의 값에 영향을 주지않는다고 볼수있기 때문에, 독립이다.

\[P_{X|Y}(x|y) = {P_{XY}(x,y) \over P_Y(y)} = {P_X(x)P_Y(y) \over P_Y(y)} = P_X(x)\]

\[P_{Y|X}(y|x) = {P_{XY}(x,y) \over P_X(x)} = {P_X(x)P_Y(y) \over P_X(x)} = P_Y(y)\]

독립 확률변수의 기대값 성질

  • 앞장에서 다뤘던 독립인 두 확률변수의 기대값 성질을 되짚어 보면

\[E[XY] = E[X]E[Y]\]

\[E[(X - \mu X)(Y - \mu Y)] = 0\]

독립 확률변수의 분산

  • 독립인 두 확률변수 \(X,Y\)의 분산은

\[Var[X + Y] = Var[X] + Var[Y]\]