0%
정규 분포에서 파생된 분포
스튜던트 t분포
- 펫테일을 보이는 데이터모형에 적합(주식 데이터 등)
- 스튜던트 t 분포는 의 확률밀도 함수 \[t \sim (x;\mu(모수),\lambda(표준편차), \nu(자유도))\]
- 자유도가 1이면 코시분포, 코시분포의 양수인 부분을 하프코시분포
- 정규분포를 따르는 확률 변수의 \(N\) 개의 표본의 합(또는 평균)은 표본 분산으로 정규화하면 스튜던트 t분포를 따른다
t 통계량
- 정규분포로 부터 얻은 \(N\) 개의 표본에서 계산한 표본평균을 표본표준편차로 정규화한 값
카이제곱분포
- 정규분포를 따르는 확률 변수의 \(N\) 개의 표본을 제곱하여 더하면 양수값만을 가지는 분포가 된다.
- \(N\)이 커질수록(여러개를 더할수록, 중심극한정리에 의해) 정규분포 처럼 된다.
F분포
- 카이제곱분포를 따르는 독립적인 두 개의 확률 변수의 확률 변수 표본을 각각 \(x_{1}, x_{2}\) 라고 할때, 이를 각각 표본의 갯수 \(N_{1}, N_{2}\)로 나눈뒤 비율을 구한 분포를 F분포라고 한다.
5가지 통계량 공식
다변수 정규분포
- 고유값분해 : 다변수정규분포 함수의 정밀도행렬이 가지는 고유값: 타원의 폭, 고유벡터: 타원의 방향
- 고유값 분해해서 나온 공분산 행렬 \(\Sigma\)를 변환행렬로 생각하고, 새로운 기저벡터를 만든다. (회전하고 이동한다)
- 다변수 정규분포의 조건부 확률분포(자른다): 다변수 정규분포인 확률변수벡터 중 어떤 원소의 값이 주어지면 다른 확률변수의 조건부 확률 분포는 다변수 정규분포이다.
- 다변수 정규분포의 주변 확률분포(누른다): 다변수 정규분포의 주변확률분포는 다변수 정규분포이다.
베타분포
- 0~1까지 가질수 있는 베르누이 분포의 모수 \(\mu\)의 값을 베이지안 추정한 결과로 표현한것.
- \(Beta \sim (x;a,b)\) : a,b가 커질수록 모수추정의 정확도가 높아짐(그래프가 더 뾰족)
감마분포
- 0부터 무한대의 값을 가지는 양수값을 추정하는데 사용
디리클레 분포
- 디리클레분포는 베타분포의 확장판. 베타분포는 0과 1사이의 값을 가지는 단일(univariate) 확률변수의 베이지안 모형에 사용되고 디리클레분포는 0과 1사이의 사이의 값을 가지는 다변수(multivariate) 확률변수의 베이지안 모형에 사용된다.
- 베타분포는 변수의 갯수 k=2인 디리클레 분포
하이퍼모수
- 베타분포, 디리클레분포의 모수 (=> 베르누이분포, 카테고리분포의 모수의 모수)
확률분포의 추정
- 데이터로 부터 확률변수의 분포를 알아내는 과정
- step1 : 확률변수가 어떤 확률분포를 따르는지 확인
- step2 : 모수추정
모수추정
- 모수의 값으로 가장 가능성이 높은 하나의 숫자를 찾아내는 작업
- 모멘트 방법: 표본자료의 "표본 모멘트"와 확률분포의 "이론적 모멘트"가 같다고 가정
- 베르누의 분포의 모수추정
- 정규분포의 모수추정
- 베타분포의 모수추정
최대 가능도 추정법
가능도 함수
- 확률 밀도 함수는 일반적으로 모수를 알고 표본값을 찾아내지만
- 가능도 함수는 표본값을 가지고 있고 이를 뽑아내는 모수를 찾아내는 함수
최대가능도 추정법
- 주어진 표본에 대해 가능도를 가장 크게 하는 모수를 찾는 방법
로그 가능도 함수
- 반복시행으로 인한 복수데이터는 pdf들의 곱으로 나타내야 하는데, 로그를 취하면 더하기로 표현 가능
각 분포별 최대가능도 모수추정
- 베르누이 분포 : 모수는 1이 나온 횟수와 전체 시행횟수의 비율
- 카테고리 분포 : 모수는 각 범주값이 나온 횟수와 전체 시행횟수의 비율
- 정규분포 : 기대값은 표본평균, 분산은 (편향)표본평균
- 다변수 정규분포 : 기대값은 표본평균벡터, 분산은 표본공분산 행렬
베이즈 추정법
- 모수를 숫자 하나로 얘기하지 않고, 모수값을 가질수 있는 모든 가능성의 분포를 계산
베이즈 추정법의 기본 원리
- 사전분포, 사후분포, 가능도 분포로 구성
- 모수적 방법, 비모수적 방법(MCMC - 몬테 카를로 방법)
베이즈 추정법의 모수적 방법
- 켤레 사전확률 분포 : 사전분포와 사후분포가 형태는 같고, 모수값만 다른 경우
- 베르누이 분포의 모수 추정
- 카테고리 분포의 모수추정
- 정규분포의 기대값, 모수추정