mySQL 1
정규분포에서 파생된 분포, 모수추정이란?
정규 분포에서 파생된 분포
스튜던트 t분포
- 펫테일을 보이는 데이터모형에 적합(주식 데이터 등)
- 스튜던트 t 분포는 의 확률밀도 함수 \[t \sim (x;\mu(모수),\lambda(표준편차), \nu(자유도))\]
- 자유도가 1이면 코시분포, 코시분포의 양수인 부분을 하프코시분포
- 정규분포를 따르는 확률 변수의 \(N\) 개의 표본의 합(또는 평균)은 표본 분산으로 정규화하면 스튜던트 t분포를 따른다
정규분포와 중심극한정리
정규분포(normal distribution)
- 자연 현상에서 나타나는 숫자를 확률모형으로 모형화 할때 사용한다.
- 정규분포는 평균 \(\mu\)와 분산\(\sigma^2\)이라는 두 모수만으로 정의된다.
- 정규분포의 확률밀도함수(pdf)
\[\mathcal{N}(x;\mu,\sigma^2) = {1 \over \sqrt{2\pi\sigma^2}}\exp\left(-{(x-\mu)^2\over 2\sigma^2}\right) \]
카테고리분포와 다항분포
카테고리 확률변수
- 카테고리 확률변수는 1부터 \(K\)까지의 \(K\)개 정수값 중 하나가 나온다. 이 정수값을 범주값, 카테고리, 클래스 등으로 부른다. (주사위를 던져서 나오는 눈금 수는 \(K=6\)인 카테고리분포다)
베르누이분포, 이항분포란?
조건부 기대값과 예측문제
조건부기대값
- 확률변수 \(Y\)의 기대값을 구할 때, 주변확률밀도함수 \(p_Y(y)\)를 사용하여 가중치를 계산하지 않고, 조건부 확률밀도 함수 \(p_{X|Y}(y|x)\)를 이용하여 가중치를 계산하면 조건부기대값(conditional expectation) 혹은 조건부평균(conditional mean)이 된다.
\[ E_Y[Y|X] = \int_{y=-\infty}^{y=\infty}yp_{X|Y}(y|x)dy\] 혹은 \[ E[Y|X] = \int yp(y|x)dy\]
공분산과 상관계수란?
표본공분산
\[S_{xy} = {1 \over N} \sum_{i=1}^{N}(x_i - \bar x)(y_i - \bar y)\]
- 표본분산과 마찬가지로 표본공분산도 데이터가 평균값으로 부터 얼마나 떨어져 있는지에 대한 크기와 방향성을 같이 보여준다.
- 데이터가 1사분면이나 3사분면에 있는 경우에는 표본공분산은 양수가, 데이터가 2사분면이나 4사분면에 있는 경우에는 음수가 된다.
- 표본공분산의 부호는 \(X,Y\) 데이터가 같은 부호를 가지는지 다른 부호를 가지는지에 대한 지표
다변수 확률변수란?
이산확률변수 에서 다변수 확률변수
결합확률질량함수
\[P_{XY}(x,y)\]- 결합확률 질량함수에서는 독립변수가 𝑥,𝑦 두 개가 된다. 종속변수는 그 숫자 쌍이 나타날 확률이다.
- \(P_{XY}(2,3)\) 은 \({𝑥=2,𝑦=3}\) 이라는 특정한 숫자 쌍으로만 이루어진 사건의 확률이다. 만약 공정한 주사위 두 개를 던지는 경우라면 결합확률질량함수는 \(1\over 36\)이다.
분산과 표준편차란?
확률분포의 분산
- 확률밀도함수 \(p(x)\)의 수식을 알고 있다면 이론적인 분산을 구할수 있다.
\[\sigma^2 = Var[X] = E[(X-\mu)^2]\]