풀랭크 방식
- 더미변수의 값을 원핫인코딩 방식으로 지정. \[x_1 = A \to d_{1A} = 1, d_{1B} = 0 \] \[x_1 = B \to d_{1B} = 0, d_{1B} = 1 \]
- 위 수식을 대입하면 \[x_1 = A \to \hat{y} = w_{1A} + w_2x_2 + \dots + w_Dx_D\] \[x_1 = B \to \hat{y} = w_{1B} + w_2x_2 + \dots + w_Dx_D\]
- 더미변수의 가중치는 상수항이 된다.
풀랭크 방식과 축소랭크 방식
풀랭크 : 더미변수의 값을 원핫인코딩 방식으로 지정.
축소랭크 : 특정한 하나의 범주값을 기준값으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1로 놓는다.
월별기온예측
- 풀랭크 방식 : 각 월의 대표값
- 축소랭크 방식 : 기준값(1월의 평균기온)에서 "차이"가 얼마나 나는가
두개 이상의 범주형 변수가 있는 경우
- 두개 이상의 범주형 변수가 있는 경우 축소형 방식을 사용
- 모든 범주형 변수의 가중치는 기준값 상수항에 더해지는 상수항으로 취급.
범주형 독립변수와 실수 독립변수의 상호작용
Case1)
범주형 독립변수 \(x_1\)과 실수 독립변수 \(x_2\)를 가지는 회귀모형에서 연속값 독립변수 \(x_2\)가 미치는 영향, 즉 가중치가 범주형 독립변수 \(x_1\)에 따라 달라진다면
범주형 독립변수를 더미변수 \(d_1\)으로 인코딩하고 연속값 독립변수 \(x_2\)는 \(d_1\)과의 상호작용항
d_1:x_2
를 추가한다.\(x_1\)범주값에 따라 \(x_2\)의 기울기가 달라지는 모형이 된다.
Case2)
범주형 독립변수도 종속변수에 영향을 미치고, 범주형 독립변수와 실수 독립변수의 "상호작용"도 종속변수에 영향을 미치면
\(x_1\)의 범주값에 따라 상수항과 \(x_2\)의 기울기가 모두 달라지는 모형이 된다.