0%

부분회귀

부분회귀

  • 회귀분석을 한 후 새로운 독립변수를 추가하여 다시 회귀분석 한다면?
    • 처음에 나온 w1의 값과 두번째 나온 w'1의 값은 다르다.
    • 종속변수에 영향을 미치는 모든 독립변수들이 회귀모형에 포함되지 않는한, 모형의 가중치는 항상 편향된(biased)값 이다.

새로운 독립변수 그룹을 추가해서 다시 회귀분석을 하면, 기존 가중치 벡터의 값이 달라진다.

두가지 회귀분석 결과가 같을수 있는 경우

  • \(w'2 = 0\), 즉 \(X_2\)\(y\)의 상관관계가 없는 경우
  • \(X_1^TX_2 = 0\), 즉 독립변수 \(X_1\)과 독립변수 \(X_2\)가 직교하는 경우. 서로 상관관계가 없으면 직교할 가능성이 높다.

프리슈-워-로벨 정리

  • 1 : 특정한 독립변수 그룸 \(X_1\)로 종속변수 \(y\)를 선형회귀분석하여 잔차 \(y^*\)를 구한다.
  • 2 : \(X_1\)로 다른 독립변수 \(x_2\)를 선형 회귀분석하여 나온 잔차 \(x^*_2\)를 구한다.
  • 3 : \(y^*\)를 종속변수로 하고 \(x^*_2\) 를 독립변수로 하여 선형회귀분석하여 구한 가중치는 \(X_1\)\(x_2\)를 모두 사용하여 \(y\)를 선형 회귀분석하였을때 \(x_2\)에 대한 가중치와 같다.

부분회귀 플롯(Partial Regression Plot, Added Variable Plot)

  • 특정한 하나의 독립변수의 영향력을 시각화하는 방법

순서

  1. 특정한 독립변수 \(𝑥_2\) 를 제외한 나머지 독립변수 \(𝑋_1\) 들로 종속변수 \(𝑦\) 를 선형 회귀분석하여 잔차 \(𝑦^∗\) 를 구한다.
  2. 특정한 독립변수 \(𝑥_2\) 를 제외한 나머지 독립변수 \(𝑋_1\) 들로 특정한 독립변수 \(𝑥_2\) 를 선형 회귀분석하여 잔차 \(x_2^*\) 를 구한다.
  3. 잔차 \(𝑥_2^*\) 를 독립변수로, 잔차 \(𝑦^∗\) 를 종속변수로 하여 선형 회귀분석한다. 이렇게 구한 \(𝑥_2^*\) , \(𝑦^∗\) 의 스캐터 플롯과 회귀분석 결과를 나타낸 것이 부분회귀 플롯이다.
  • 부분회귀 플롯에서 가로축의 값은 독립변수 자체의 값이 아닌, 다른 독립변수의 영향을 제거한 일종의 "순수한 독립변수 성분"

CCPR 플롯

  • 부분회귀플롯과 마찬가지, "가로축의 값은 독립변수 그대로의 값"