0%

선형회귀분석의 기초

회귀분석

독립변수에 대응하는 종속변수와 가장 비슷한값 \(\hat{y}\)을 출력하는 함수를 찾는 과정 만약 함수 \(f(x)\)가 선형함수면, 이 함수를 선형회귀모형(linear regression model)이라 한다.

  • 만약 \(f(x)\)가 선형함수면 이 함수를 선형회귀모형이라고 한다. 선형회귀모형을 사용하는 회귀분석은 선형회귀분석이라고 한다. \[\hat{y} = w_0 + w_1x_1 + w_2x_2 + ... + w_Dx_D = w_0+w^Tx\]

상수항 결합

회귀분석모형 수식을 간단하게 만들기 위해 상수항을 독립변수 데이터 제일 처음에 추가하는것을 상수항 결합 작업이라 한다.

1
2
3
4
import statsmodels.api as sm

X0 = np.arange(6).reshape(2,3)
X = sm.add_constant(X0)

최소자승법

최소자승법(OLS)은 잔차제곱합(RSS)을 최소화 하는 가중치 벡터를 구하는 방법. 잔차의 크기(RSS)를 가장 작게 하는 가중치 벡터를 구하기 위해서, 잔차제곱합 식을 미분하여 그레디언트 벡터를 구하고, 이 그레디언트벡터가 영벡터 일때 RSS는 최소가 된다.

직교방정식

여기서 그레디언트 벡터가 0벡터가 되는 관계를 나타내는 식을 직교방정식(normal equation)이라 한다. 1. 모형에 상수항이 있는 경우 잔차벡터의 원소의 합은 0이다. 즉 잔차의 평균은 0이다 2. x데이터의 평균값에 대한 예측값은 y데이터의 평균값이다.