풀랭크 방식
- 더미변수의 값을 원핫인코딩 방식으로 지정. x1=A→d1A=1,d1B=0x1=B→d1B=0,d1B=1
- 위 수식을 대입하면 x1=A→ˆy=w1A+w2x2+⋯+wDxDx1=B→ˆy=w1B+w2x2+⋯+wDxD
- 더미변수의 가중치는 상수항이 된다.
풀랭크 방식과 축소랭크 방식
풀랭크 : 더미변수의 값을 원핫인코딩 방식으로 지정.
축소랭크 : 특정한 하나의 범주값을 기준값으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1로 놓는다.
월별기온예측
- 풀랭크 방식 : 각 월의 대표값
- 축소랭크 방식 : 기준값(1월의 평균기온)에서 "차이"가 얼마나 나는가
두개 이상의 범주형 변수가 있는 경우
- 두개 이상의 범주형 변수가 있는 경우 축소형 방식을 사용
- 모든 범주형 변수의 가중치는 기준값 상수항에 더해지는 상수항으로 취급.
범주형 독립변수와 실수 독립변수의 상호작용
Case1)
범주형 독립변수 x1과 실수 독립변수 x2를 가지는 회귀모형에서 연속값 독립변수 x2가 미치는 영향, 즉 가중치가 범주형 독립변수 x1에 따라 달라진다면
범주형 독립변수를 더미변수 d1으로 인코딩하고 연속값 독립변수 x2는 d1과의 상호작용항
d_1:x_2
를 추가한다.x1범주값에 따라 x2의 기울기가 달라지는 모형이 된다.
Case2)
범주형 독립변수도 종속변수에 영향을 미치고, 범주형 독립변수와 실수 독립변수의 "상호작용"도 종속변수에 영향을 미치면
x1의 범주값에 따라 상수항과 x2의 기울기가 모두 달라지는 모형이 된다.