0%

스케일링

조건수

  • 가장큰 고유값와 가장 작은 고유값의 비율

  • 조건수가 크면 민감도가 커진다. 즉, 오차가 생기면 해에 미치는 영향이 커진다.

  • 연립방정식을 이루는 행렬의 조건수가 커지면 상수항 오차가 작은 경우라도 연립방정식 해의 오차는 커진다. > 결론 : 공분산 행렬의 조건수가 크면 회귀분석을 사용한 예측값도 오차가 커진다.

조건수가 커지는 경우

  • 스케일이 크게 다른 경우 -> 스케일링으로 해결

  • 다중공선성, 상관관계가 큰 독립변수들이 있는 경우 -> 변수선택(변수를 버리거나), PCA를 이용한 차원 축소로 해결

  • 스케일링이 안된경우 독립변수의 분포 모양이 옆이나 위로 퍼져있다. 이를 원에 가깝게 모을수록 조건수가 작아진다.

  • 다중공선성이 있을경우 그래프가 상관관계를 보인다.

  • scale()명령 formula안에서 사용하여 스케일링을 할수 있다.

  • 위 방식으로 스케일하면 스케일링에 사용된 평균과 표준편차를 저장하였다가 나중에 predict()명령을 사용할때 같은 스케일을 사용하기 때문에 편하다.