조건부기대값
- 확률변수 \(Y\)의 기대값을 구할 때, 주변확률밀도함수 \(p_Y(y)\)를 사용하여 가중치를 계산하지 않고, 조건부 확률밀도 함수 \(p_{X|Y}(y|x)\)를 이용하여 가중치를 계산하면 조건부기대값(conditional expectation) 혹은 조건부평균(conditional mean)이 된다.
\[ E_Y[Y|X] = \int_{y=-\infty}^{y=\infty}yp_{X|Y}(y|x)dy\] 혹은 \[ E[Y|X] = \int yp(y|x)dy\]
조건부 기대값에서 조건이 되는 확률변수 \(X\)의 값 \(x\)는 조건부기대값을 만들때 지정해줘야 하는 독립변수다. 따라서, 조건부기대값은 조건이 되는 확률변수 \(X\)의 값 \(x\)의 값에 따라 달라진다.
\(E[Y|X]\)는 조건이 되는 확률변수 \(X\)의 값 \(x\)를 입력으로 받는 함수이다.
\[E[Y|X = x] = f(x)\]
예측문제
- 두 확률변수가 \(X,Y\)에서 \(X\)의 값을 알고 있을 때, \(Y\)의 값을 알아내는 것을 예측(prediction)문제라고 한다.
- \(Y\)가 연속확률변수이면 회기분석, 이산확률변수이면 분류라고 한다.
- \(X\)의 값 \(x\)를 알면 조건부확률분포 \(p(y|x)\)의 분포를 알수 있지만, 예측문제의 답은 대표성이 있는 하나의 값이 되어야 하므로, 일반적으로 조건부확률분포의 기대값인 조건부기대값을 예측문제의 답으로 한다. \[x \rightarrow \hat y = E[y|x] = f(x)\]
조건부기대값의 성질
- 우리가 \(X\)의 값 \(x\)를 정하는 순간 \(Y\)의 값도 정해져 버리기 때문에 \(E[Y|X]\)는 더이상 확률적인 값이 아닌 상수가 된다.
\[E[Y|X] = E[g(X)|X] = g(X)\]
전체 기대값의 법칙
- 조건부기대값은 확률변수 이므로 조건이 되는 확률변수에 대해 다시 기대값을 구할 수 있다.
\[E_X[E_Y[Y|X]] = E_Y[Y]\]
\[E[E[Y|X]] = E[Y]\]
- 이를 전체기대값(low of total expectation)의 법칙, 또는 반복기대값의 법칙(law of interated expectation)이라고 한다.
조건부분산
- 조건부분산을 정의하면
\[Var_Y[Y|X] = E_Y[(Y - E_Y[]Y|X)^2|X] = \int(Y - E_Y[Y|X])^2f_{Y|X}(y|x)dy\]
- 조건부분산은 \(x\)의 값을 알고 있을때, 이에대한 조건부확률분포 \(p(y|x)\)의 분산이다.
- 예측문제에서, 조건부분산은 예측의 불확실성, 즉 예측으로 얼마나 맞출수 없는가에 대한 범위를 나타낸다.
전체분산의 법칙
- 확률변수의 분산 = 조건부분산의 기대값 + 조건부기대값의 분산
\[Var[Y] = E[Var[Y|X]] + Var[E[Y|X]]\]
- \(E[Y|X] = \hat y\)로 표현하면
\[Var[Y] = E[(\hat y - y)^2] + Var[\hat y]\]
- 예측문제의 관점에서 조건부분산의 기댓값 \(E[(\hat y - y)^2]\) 은 예측 오차 즉, 편향(bias)의 평균적인 크기를 뜻한다.
- 조건부기댓값의 분산 \(Var[\hat y]\) 은 예측값의 변동 크기다.
- 예측값의 변동 크기가 증가한다는 것(분산이 커진다는 것은)은 예측모형이 복잡하고 비선형적이며 주어진 데이터에 과최적화되기 쉽다는 의미다.
- 예측 오차의 크기과 예측값의 변동의 합이 일정하므로 예측 오차를 줄이면 모형이 복잡해지고 과최적화가 되며 반대로 모형을 과최적화를 막기위해 단순하게 하면 예측 오차가 증가한다. 이를 편향-분산 상충(Bias–variance Tradeoff) 법칙이라고도 한다.