조건부 기대값과 예측문제 | Howard's nest

0%

조건부 기대값과 예측문제

Posted on 2020-02-07 Edited on 2020-06-30 In TIL.. , Math , 확률 Disqus:

조건부기대값

확률변수 \(Y\)의 기대값을 구할 때, 주변확률밀도함수 \(p_Y(y)\)를 사용하여 가중치를 계산하지 않고, 조건부 확률밀도 함수 \(p_{X|Y}(y|x)\)를 이용하여 가중치를 계산하면 조건부기대값(conditional expectation) 혹은 조건부평균(conditional mean)이 된다.

\[ E_Y[Y|X] = \int_{y=-\infty}^{y=\infty}yp_{X|Y}(y|x)dy\] 혹은 \[ E[Y|X] = \int yp(y|x)dy\]

조건부 기대값에서 조건이 되는 확률변수 \(X\)의 값 \(x\)는 조건부기대값을 만들때 지정해줘야 하는 독립변수다. 따라서, 조건부기대값은 조건이 되는 확률변수 \(X\)의 값 \(x\)의 값에 따라 달라진다.
\(E[Y|X]\)는 조건이 되는 확률변수 \(X\)의 값 \(x\)를 입력으로 받는 함수이다.

\[E[Y|X = x] = f(x)\]

예측문제

두 확률변수가 \(X,Y\)에서 \(X\)의 값을 알고 있을 때, \(Y\)의 값을 알아내는 것을 예측(prediction)문제라고 한다.
\(Y\)가 연속확률변수이면 회기분석, 이산확률변수이면 분류라고 한다.
\(X\)의 값 \(x\)를 알면 조건부확률분포 \(p(y|x)\)의 분포를 알수 있지만, 예측문제의 답은 대표성이 있는 하나의 값이 되어야 하므로, 일반적으로 조건부확률분포의 기대값인 조건부기대값을 예측문제의 답으로 한다. \[x \rightarrow \hat y = E[y|x] = f(x)\]

조건부기대값의 성질

우리가 \(X\)의 값 \(x\)를 정하는 순간 \(Y\)의 값도 정해져 버리기 때문에 \(E[Y|X]\)는 더이상 확률적인 값이 아닌 상수가 된다.

\[E[Y|X] = E[g(X)|X] = g(X)\]

전체 기대값의 법칙

조건부기대값은 확률변수 이므로 조건이 되는 확률변수에 대해 다시 기대값을 구할 수 있다.

\[E_X[E_Y[Y|X]] = E_Y[Y]\]

\[E[E[Y|X]] = E[Y]\]

이를 전체기대값(low of total expectation)의 법칙, 또는 반복기대값의 법칙(law of interated expectation)이라고 한다.

조건부분산

조건부분산을 정의하면

\[Var_Y[Y|X] = E_Y[(Y - E_Y[]Y|X)^2|X] = \int(Y - E_Y[Y|X])^2f_{Y|X}(y|x)dy\]

조건부분산은 \(x\)의 값을 알고 있을때, 이에대한 조건부확률분포 \(p(y|x)\)의 분산이다.
예측문제에서, 조건부분산은 예측의 불확실성, 즉 예측으로 얼마나 맞출수 없는가에 대한 범위를 나타낸다.

전체분산의 법칙

확률변수의 분산 = 조건부분산의 기대값 + 조건부기대값의 분산

\[Var[Y] = E[Var[Y|X]] + Var[E[Y|X]]\]

\(E[Y|X] = \hat y\)로 표현하면

\[Var[Y] = E[(\hat y - y)^2] + Var[\hat y]\]

예측문제의 관점에서 조건부분산의 기댓값 \(E[(\hat y - y)^2]\) 은 예측 오차 즉, 편향(bias)의 평균적인 크기를 뜻한다.
조건부기댓값의 분산 \(Var[\hat y]\) 은 예측값의 변동 크기다.
예측값의 변동 크기가 증가한다는 것(분산이 커진다는 것은)은 예측모형이 복잡하고 비선형적이며 주어진 데이터에 과최적화되기 쉽다는 의미다.
예측 오차의 크기과 예측값의 변동의 합이 일정하므로 예측 오차를 줄이면 모형이 복잡해지고 과최적화가 되며 반대로 모형을 과최적화를 막기위해 단순하게 하면 예측 오차가 증가한다. 이를 편향-분산 상충(Bias–variance Tradeoff) 법칙이라고도 한다.