조건수
가장큰 고유값와 가장 작은 고유값의 비율
연립방정식을 이루는 행렬의 조건수가 커지면 상수항 오차가 작은 경우라도 연립방정식 해의 오차는 커진다. > 결론 : 공분산 행렬의 조건수가 크면 회귀분석을 사용한 예측값도 오차가 커진다.
조건수가 커지는 경우
스케일이 크게 다른 경우 -> 스케일링으로 해결
다중공선성, 상관관계가 큰 독립변수들이 있는 경우 -> 변수선택(변수를 버리거나), PCA를 이용한 차원 축소로 해결
스케일링이 안된경우 독립변수의 분포 모양이 옆이나 위로 퍼져있다. 이를 원에 가깝게 모을수록 조건수가 작아진다.
다중공선성이 있을경우 그래프가 상관관계를 보인다.
scale()
명령 formula안에서 사용하여 스케일링을 할수 있다.위 방식으로 스케일하면 스케일링에 사용된 평균과 표준편차를 저장하였다가 나중에
predict()
명령을 사용할때 같은 스케일을 사용하기 때문에 편하다.