0%

범주형 독립변수

풀랭크 방식

  • 더미변수의 값을 원핫인코딩 방식으로 지정. \[x_1 = A \to d_{1A} = 1, d_{1B} = 0 \] \[x_1 = B \to d_{1B} = 0, d_{1B} = 1 \]
  • 위 수식을 대입하면 \[x_1 = A \to \hat{y} = w_{1A} + w_2x_2 + \dots + w_Dx_D\] \[x_1 = B \to \hat{y} = w_{1B} + w_2x_2 + \dots + w_Dx_D\]
  • 더미변수의 가중치는 상수항이 된다.

풀랭크 방식과 축소랭크 방식

  • 풀랭크 : 더미변수의 값을 원핫인코딩 방식으로 지정.

  • 축소랭크 : 특정한 하나의 범주값을 기준값으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1로 놓는다.

  • 월별기온예측

    • 풀랭크 방식 : 각 월의 대표값
    • 축소랭크 방식 : 기준값(1월의 평균기온)에서 "차이"가 얼마나 나는가

두개 이상의 범주형 변수가 있는 경우

  • 두개 이상의 범주형 변수가 있는 경우 축소형 방식을 사용
  • 모든 범주형 변수의 가중치는 기준값 상수항에 더해지는 상수항으로 취급.

범주형 독립변수와 실수 독립변수의 상호작용

Case1)

  • 범주형 독립변수 \(x_1\)과 실수 독립변수 \(x_2\)를 가지는 회귀모형에서 연속값 독립변수 \(x_2\)가 미치는 영향, 즉 가중치가 범주형 독립변수 \(x_1\)에 따라 달라진다면

  • 범주형 독립변수를 더미변수 \(d_1\)으로 인코딩하고 연속값 독립변수 \(x_2\)\(d_1\)과의 상호작용항 d_1:x_2를 추가한다.

  • \(x_1\)범주값에 따라 \(x_2\)의 기울기가 달라지는 모형이 된다.

Case2)

  • 범주형 독립변수도 종속변수에 영향을 미치고, 범주형 독립변수와 실수 독립변수의 "상호작용"도 종속변수에 영향을 미치면

  • \(x_1\)의 범주값에 따라 상수항과 \(x_2\)의 기울기가 모두 달라지는 모형이 된다.