0%

공분산과 상관계수란?

표본공분산

\[S_{xy} = {1 \over N} \sum_{i=1}^{N}(x_i - \bar x)(y_i - \bar y)\]

  • 표본분산과 마찬가지로 표본공분산도 데이터가 평균값으로 부터 얼마나 떨어져 있는지에 대한 크기와 방향성을 같이 보여준다.
  • 데이터가 1사분면이나 3사분면에 있는 경우에는 표본공분산은 양수가, 데이터가 2사분면이나 4사분면에 있는 경우에는 음수가 된다.
  • 표본공분산의 부호는 \(X,Y\) 데이터가 같은 부호를 가지는지 다른 부호를 가지는지에 대한 지표

표본상관계수

  • 분포의 크기는 공분산이 아닌 분산만으로도 알수있다. 따라서, 자료 분포의 방향성만 분리해서 보고자 할때는 상관계수를 사용한다.

  • 공분산을 각각의 표본표준편차 값으로 나누어 정규화 한다(피어슨 상관계수)

\[r_{xy} = {S_{xy} \over \sqrt{s^2_x s^2_y}}\]

  • 스피어만 상관계수 : 데이터들의 분위수(백분위 등)를 이용해 1등부터 줄을 세워서 상관관계를 비교함

확률변수의 공분산과 상관계수

  • 확률변수 \(X\)\(Y\)의 공분산

\[Cov[X,Y] = E[(X - E[X](Y - E[Y]))]\]

  • 확률변수 \(X\)\(Y\)의 상관계수도 다음과 같이 정의한다.

\[\rho[X,Y] = {Cov[X,Y] \over \sqrt{Var[X]Var[Y]}}\]

  • 상관계수 : \(-1 \leq \rho \leq 1\) 이고
    • \(\rho = 1\) : 완전선형 상관관계
    • \(\rho = 0\) : 무상관(독립과는 다른)
    • \(\rho = 1\) : 완전선형 반상관관계

공분산 : 자료가 평균으로 부터 얼마나 멀리 떨어져 있는지, 방향성과 크기 모두를 나타냄

상관계수 : 방향성 만을 나타냄, 좌상을 향할수록 1에 가깝고, 우하를 향할수록 -1에 가깝고, 둥글게 퍼져있을수록 0에 가깝다

비선형 상관관계

  • 두 확률변수가 상관관계가 있으면 두 확률변수의 값 중 하나를 알았을 때 다른 확률변수의 값에 대한 정보를 알 수 있다. 반드시 정확한 값을 알 수 있어야 하는 것은 아니다.
  • 선형이 아닌 상관관계를 비선형 상관관계라고 한다. 피어슨 상관계수는 비선형관계를 가진 데이터들의 상관관계를 잘 표현하지 못함(엔스콤 데이터 예시)

다변수 확률변수의 표본공분산

  • 스칼라가 아닌 벡터 표본값을 가지는 다변수 확률변수의 공분산을 생각해보자.

  • \(M\)개의 서로 다른 확률변수가 있다고 하면, 이 확률변수들의 표본 데이터가 각각 \(N\)개 씩 있으면 \(j\)번재 확률변수의 \(i\)번째 데이터를 \(x_{j,i}\)로 표기한다.

\[X = \begin{bmatrix} x_{1,1} & x_{1,2} & \dots & x_{1,M} \\ x_{2,1} & x_{2,2} & \dots & x_{2,M} \\ \dots & \dots & \ddots & \dots \\ x_{N,1} & x_{N,2} & \dots & x_{N,M} \end{bmatrix} \quad \]

  • \(M\)개의 서로다른 확률변수의 모든 조합에 대해 공분산을 한꺼번에 표현하는 표본공분산행렬(Sample Covariance Matrix)는

\[S = \begin{bmatrix} S^2_{x_1} & S_{x_1x_2} & \dots & S_{x_1x_M} \\ S_{x_1x_2} & S^2_{x_2} & \dots & S_{x_1x_M} \\ \dots & \dots & \ddots & \dots \\ S_{x_1x_M} & S_{x_2x_M} & \dots & S^2_{x_M} \end{bmatrix} \quad \]

  • 표본공분산행렬 \(S\)를 구하는 방법은

      1. 각 확률변수의 표본평균을 계산한다. \[\bar x_j = {1 \over N}\sum_{i=1}^{N}x_{i,j}\]
      1. 각 확률변수의 분산을 계산한다. \[s^2_j = {1 \over N}\sum_{i=1}^{N}(x_{i,j} - \bar x)^2\]
      1. 두 확률변수의 공분산을 계산한다. \[s_{j,k} = {1 \over N}\sum_{i=1}^{N}(x_{i,j} - \bar x_j)(x_{i,k} - \bar x_k)\]
  • 최종적으로 표본공분산 행렬 \(S\)\[S = {1 \over N}\sum_{i=1}^{N}(x_i - \bar x)(x_i - \bar x)^T\]

다변수 확률변수의 공분산

  • \(M\)개의 다변수 확률변수 벡터의 이론적 공분산행렬\(\Sigma\)로 표기하고

\[\Sigma = E[(X - E[X])(X - E[X])^T] = E\begin{bmatrix} \begin{bmatrix} X_1 - E[X_1]\\ X_2 - E[X_2]\\ \dots \\ X_M - E[X_M] \end{bmatrix} &[X_1 - E[X_1] & X_2- E[X_2] & \dots & X_M - E[X_M]]\end{bmatrix}\]

조건부 기대값

  • 조건이 되는 확률변수 X에 따라 값이 달라지는 "확률변수"
  • 결정론적 함수값

예측문제

  • X의 값을 알고 있을떄 Y를 알아내는 것
  • 분류 : Y가 이산확률변수일때, 입력이 주어져서 카테고리값이 나온다(0,1, 맞거나 틀리거나)
  • 회기분석 : Y가 연속확률변수일때, 실수값이 나온다.

조건부 분산

전체분산의 법칙

  • 편향-분산상충법칙
  • Var[Y] = E[(yhat-y)**2] + Var[yhat]
  • 고정된 값이기 때문에, = 예측오차 상승 + 예측모델의 복잡도 하락
  • 고정된 값이기 때문에, = 예측오차 하락 + 예측모델의 복잡도 상승