표본공분산
\[S_{xy} = {1 \over N} \sum_{i=1}^{N}(x_i - \bar x)(y_i - \bar y)\]
- 표본분산과 마찬가지로 표본공분산도 데이터가 평균값으로 부터 얼마나 떨어져 있는지에 대한 크기와 방향성을 같이 보여준다.
- 데이터가 1사분면이나 3사분면에 있는 경우에는 표본공분산은 양수가, 데이터가 2사분면이나 4사분면에 있는 경우에는 음수가 된다.
- 표본공분산의 부호는 \(X,Y\) 데이터가 같은 부호를 가지는지 다른 부호를 가지는지에 대한 지표
표본상관계수
분포의 크기는 공분산이 아닌 분산만으로도 알수있다. 따라서, 자료 분포의 방향성만 분리해서 보고자 할때는 상관계수를 사용한다.
공분산을 각각의 표본표준편차 값으로 나누어 정규화 한다(피어슨 상관계수)
\[r_{xy} = {S_{xy} \over \sqrt{s^2_x s^2_y}}\]
- 스피어만 상관계수 : 데이터들의 분위수(백분위 등)를 이용해 1등부터 줄을 세워서 상관관계를 비교함
확률변수의 공분산과 상관계수
- 두 확률변수 \(X\)와 \(Y\)의 공분산
\[Cov[X,Y] = E[(X - E[X](Y - E[Y]))]\]
- 두 확률변수 \(X\)와 \(Y\)의 상관계수도 다음과 같이 정의한다.
\[\rho[X,Y] = {Cov[X,Y] \over \sqrt{Var[X]Var[Y]}}\]
- 상관계수 : \(-1 \leq \rho \leq 1\) 이고
- \(\rho = 1\) : 완전선형 상관관계
- \(\rho = 0\) : 무상관(독립과는 다른)
- \(\rho = 1\) : 완전선형 반상관관계
공분산 : 자료가 평균으로 부터 얼마나 멀리 떨어져 있는지, 방향성과 크기 모두를 나타냄
상관계수 : 방향성 만을 나타냄, 좌상을 향할수록 1에 가깝고, 우하를 향할수록 -1에 가깝고, 둥글게 퍼져있을수록 0에 가깝다
비선형 상관관계
- 두 확률변수가 상관관계가 있으면 두 확률변수의 값 중 하나를 알았을 때 다른 확률변수의 값에 대한 정보를 알 수 있다. 반드시 정확한 값을 알 수 있어야 하는 것은 아니다.
- 선형이 아닌 상관관계를 비선형 상관관계라고 한다. 피어슨 상관계수는 비선형관계를 가진 데이터들의 상관관계를 잘 표현하지 못함(엔스콤 데이터 예시)
다변수 확률변수의 표본공분산
스칼라가 아닌 벡터 표본값을 가지는 다변수 확률변수의 공분산을 생각해보자.
\(M\)개의 서로 다른 확률변수가 있다고 하면, 이 확률변수들의 표본 데이터가 각각 \(N\)개 씩 있으면 \(j\)번재 확률변수의 \(i\)번째 데이터를 \(x_{j,i}\)로 표기한다.
\[X = \begin{bmatrix} x_{1,1} & x_{1,2} & \dots & x_{1,M} \\ x_{2,1} & x_{2,2} & \dots & x_{2,M} \\ \dots & \dots & \ddots & \dots \\ x_{N,1} & x_{N,2} & \dots & x_{N,M} \end{bmatrix} \quad \]
- \(M\)개의 서로다른 확률변수의 모든 조합에 대해 공분산을 한꺼번에 표현하는 표본공분산행렬(Sample Covariance Matrix)는
\[S = \begin{bmatrix} S^2_{x_1} & S_{x_1x_2} & \dots & S_{x_1x_M} \\ S_{x_1x_2} & S^2_{x_2} & \dots & S_{x_1x_M} \\ \dots & \dots & \ddots & \dots \\ S_{x_1x_M} & S_{x_2x_M} & \dots & S^2_{x_M} \end{bmatrix} \quad \]
표본공분산행렬 \(S\)를 구하는 방법은
- 각 확률변수의 표본평균을 계산한다. \[\bar x_j = {1 \over N}\sum_{i=1}^{N}x_{i,j}\]
- 각 확률변수의 분산을 계산한다. \[s^2_j = {1 \over N}\sum_{i=1}^{N}(x_{i,j} - \bar x)^2\]
- 두 확률변수의 공분산을 계산한다. \[s_{j,k} = {1 \over N}\sum_{i=1}^{N}(x_{i,j} - \bar x_j)(x_{i,k} - \bar x_k)\]
최종적으로 표본공분산 행렬 \(S\)는 \[S = {1 \over N}\sum_{i=1}^{N}(x_i - \bar x)(x_i - \bar x)^T\]
다변수 확률변수의 공분산
- \(M\)개의 다변수 확률변수 벡터의 이론적 공분산행렬은 \(\Sigma\)로 표기하고
\[\Sigma = E[(X - E[X])(X - E[X])^T] = E\begin{bmatrix} \begin{bmatrix} X_1 - E[X_1]\\ X_2 - E[X_2]\\ \dots \\ X_M - E[X_M] \end{bmatrix} &[X_1 - E[X_1] & X_2- E[X_2] & \dots & X_M - E[X_M]]\end{bmatrix}\]
조건부 기대값
- 조건이 되는 확률변수 X에 따라 값이 달라지는 "확률변수"
- 결정론적 함수값
예측문제
- X의 값을 알고 있을떄 Y를 알아내는 것
- 분류 : Y가 이산확률변수일때, 입력이 주어져서 카테고리값이 나온다(0,1, 맞거나 틀리거나)
- 회기분석 : Y가 연속확률변수일때, 실수값이 나온다.
조건부 분산
전체분산의 법칙
- 편향-분산상충법칙
- Var[Y] = E[(yhat-y)**2] + Var[yhat]
- 고정된 값이기 때문에, = 예측오차 상승 + 예측모델의 복잡도 하락
- 고정된 값이기 때문에, = 예측오차 하락 + 예측모델의 복잡도 상승