OLS방법을 사용하여 최적의 가중치를 계산할수 있지만, 오차범위를 알지 못하면 가중치를 알아도 아무것도 모르는 거랑 같다!
- 가중치의 오차 범위 혹은 신뢰 구간을 계산할 수 없다면 OLS 결과로부터 실질적인 결론을 이끌어내기 어렵다.
부트스트래핑
- OLS로 구한 가중치의 추정값은 표본 데이터에 따라 달라진다.
- 여러 다른 표본 데이터 집합이 있다면 넣어보면서 가중치가 어떻게 달라지는지 알아 볼수 있지만, 현실적으로 다시 데이터를 얻기는 힘듦
- 따라서 기존 데이터를 재표본화하여(re-sampling)하여 여러가지 다양한 표본 데이터를 만드는 방법을 부트스트래핑이라 한다.
확률론적 선형 회귀모형
확률론적 선형회귀모형을 쓰면 빠르고 안정적으로 가중치 추정값의 오차를 구할수 있다.
- 확률론적 선형 회귀모형에서는 데이터가 확률 변수로 부터 생성된 표본이라고 가정한다.
1. 선형 정규 분포 가정
- 종속변수 \(y\)가 독립변수\(x\)의 선형조합으로 결정되는 "기대값"과 고정된 분산\(\sigma^2\)를 가지는 "정규 분포"라는 것이다.
\[y \sim N(w^Tx,\sigma^2)\] \[\epsilon = y - w^Tx\] \[p(\epsilon|\theta) = N(0,\sigma^2)\]
2. 외생성 가정
- 잡음 \(\epsilon\)의 기대값은 독립변수 \(x\)의 크기에 상관없이 항상 0이라고 가정.
\[E[\epsilon|x] = 0\]
3. 조건부 독립 가정
- \(i\)번쨰 표본의 잡음 \(\epsilon_i\)와 \(j\)번쨰 표본의 잡음 \(\epsilon_j\)의 공분산 값이 \(x\)와 상관없이 항상 0이라고 가정한다.
\[Cov[\epsilon_i,\epsilon_j]=0 (i,j = 1,2,...,N)\]
- 이는 서로 독립이라는 가정과 같다.
\[E[\epsilon_i\epsilon_j]=0(i,j = 1,2,...,N)\]
- 잡음 벡터 \(\epsilon\)의 공분산 행렬이 대각행렬이 되어야 한다.(비대각 성분 모두 0)
\[Cov[\epsilon] = E[\epsilon\epsilon^T] = Diagonal matrix \]
4. 등분산성 가정
- \(i\)번쨰 표본의 잡음 \(\epsilon_i\)와 \(j\)번쨰 표본의 잡음 \(\epsilon_j\)의 분산 값이 표본과 상관없이 항상 같다고 가정
\[Cov[\epsilon]=E[\epsilon\epsilon^T]=\sigma^2I\]
- 잡음 벡터 공분산 행렬이 항등행렬 형태가 되어야 한다는 조건과 같다.
최대 가능도 방법을 사용한 선형 회귀분석
- 최대 가능도 방법(Maximum Likelihood Estimation)을 사용하여 가중치 벡터 𝑤 의 값을 구해보면, OLS의 직교 방정식과 같은 직교 방정식을 얻을 수 있다
잔차의 분포
$ e = M$
- M : 잔차행렬
- 잔차 \(e\)는 잡음 \(\epsilon\)의 선형변환이다.
- 정규분포의 선형변환은 마찬가지로 정규분포 이므로 잔차는 정규분포를 따른다.
회귀계수의 표준오차
- 실제 가중치 계수 \(w_i\)와 우리가 추정한 가중치 계수 \(\hat{w}_i\)의 차이를 표준오차로 나눈값, 즉 정규화된 모수 오차는 자유도가 \(N-K\)인 표준 스튜던트 t분포를 따른다.
단일 계수 t-검정
- 정규화된 모수 오차를 검정통계량으로 사용하면 \(w_i\)가 0인지 아닌지에 대한 검정을 실시할수 있다.
- StatsModels summary 메서드가 출력하는 회귀분석 보고서에서
std err
로 표시된 열이 모형계수의 표준오차,t
로 표시된 열이 단일 계수 t-검정의 검정 통계량, 그리고P>|t|
로 표시된 열이 유의확률을 뜻한다. - 두 독립변수의 계수값을 비교할때도 사용
- 범주형 독립변수의 범주값이 가지는 유의성을 판단하는데 유용하다.
회귀분석 F-검정
- 개별 개수가 아닌 전체 회귀 계수가 모두 의미가 있는지 확인하는 경우 사용.
- 전체 독립 변수 중 어느 것도 의미를 가진 것이 없다는 귀무가설을 세운다.
- 유의확률이 작으면 작을수록 더 강력하게 기각된 것이므로 더 의미가 있는 모형이라고 할 수 있다.
- 따라서 여러 모형의 유의 확률을 비교하여 어느 모형이 더 성능이 좋은가를 비교할 때 이 유의 확률을 사용한다