결정론적 데이터
확률적 데이터
- 여러 조건, 상황에 따라 데이터값이 영향을 받거나, 측정시 오차가 생길수 있는 데이터
분포(distribution)
- 어떤값이 자주 등장, 혹은 드물게 등장하는지를 나타낸 것
- 카운트 플롯(번주형 데이터)과 히스토그램(실수형 데이터)으로 표현
기술통계(descriptive stastics)
- 표본평균, 표본중앙값, 표본최빈값
- 표본분산, 표본표준편차
- 표본비대칭도, 표본첨도
표본평균
\[ m = {1 \over N} \sum_{i=1}^N x_i\]
표본중앙값(sample median)
- 자료를 크기별로 정렬해서 가장 중앙에 위치하는 값
- 표본의 개수가 \(N\)인 경우, \(N\)이 홀수이면 중앙값은 \((N+1)/2\)번재 표본의 값, 짝수이면 \(N/2\)번째와 \(N/2 +1\)번째 표본값의 평균
표본최빈값(sample mode)
- 가장 빈번하게 나오는 값
단봉 분포(uni modal), 다봉분포(multi nodal)
- 분포의 모양에서 봉우리가 하나면 단봉, 여러개면 다봉분포라 한다.
대칭 분포
- 표본평균을 기준으로 대칭인 대칭분포이면, 표본중앙값 = 표본평균
- 대칭분포이면서 하나의 최고값을 가지는 단봉분포이면, 표본최빈값 = 표본평균
- 대칭분포를 비대칭으로 만드는 데이터가 더해지면(outlier) 표본평균 > 중앙값 > 최빈값 순으로 영향을 받는다.
분산(variance)과 표준편차(standard deviation)
데이터가 얼마나 변동하고 있는지 알려주는 특징값을 표본분산 또는 표본표준편차라고 한다.
평균, 기대값이 분포의 위치를 대표하는 것이라면, 분산은 분포의 폭을 대표하는 값이다.
표준편차 = 분산의 양의 제곱근
편향 표본분산 : 데이터와 평균 사이의 거리의 제곱의 평균
\[s^2 = {1 \over N} \sum_{i=1}^N(x_i - \bar x)^2\]
비편향 표본분산 : 데이터와 평균 사이의 거리의 제곱의 평균할떄 N-1로 나눔
\[s^2_{unbiased} = {1 \over N-1}\sum_{i=1}^N(x_i - \bar x)^2\]
표본 비대칭도(sample skewness)
- 데이터와 평균 사이의 거리의 3제곱 이용
- 0이면 대칭, 음수이면 표본평균값 기준 왼쪽, 양수이면 오른쪽
표본첨도(sample kuerosis)
- 4제곱 이용
- 데이터가 중앙에 몰려있는 정도를 정밀하게 비교할때 사용. 사람눈으로 구분 힘듦
표본모멘트(sample momoent)
- k제곱을 이용함
확률변수
- 수학적으로 확률공간의 표본을 입력으로 받아서 실수인 숫자를 출력하는 함수.
- 출력되는 실수가 데이터 값이다. 데이터 생성기의 개념
- 대문자 \(X\)등으로 표기한다
- 주사위를 던지는 시험, 혈압을 측정하는 실험처럼 같은 조건에서 여러번 반복하여 확률적 데이터를 얻을수 있다. 이 데이터들을 생성한 주사위, 사람등의 데이터 생성기가 존재한다.
실현 혹은 표본화
- 현실 세계의 데이터는 확률변수의 확률분포에 따라 실수 표본공간에서 선택된 표본이다.
- 이렇게 선택되는 과정을 실현(realization) 혹은 표본화(sampling) 이라고 한다.
- 표본화는 이상적, 추상적, 수학적인 세계에서 현실로 넘어오는 과정이다.
- 현실세계로 넘어오는 과정(표본화)에서 생기는 잡음 때문에, 우리가 가지고 있는 현실의 데이터의 분포를 살폈을때, 완벽하고 꺠끗한 형태가 나오지 않지만, 데이터의 본질을 찾아 이상세계로 넘어가면 명확한 수학적 특성을 가진 확률변수가 존재한다.
확률변수와 실제 데이터의 관계
- 확률변수로 부터 데이터를 여러번 생성하면 데이터 값은 매번 달라질수 있다. 하지만 확률변수는 변하지 않는다.
- 확률변수의 확률분포함수는 우리가 직접 관찰할수 없다. 다만 확률변수에서 만들어지는 데이터를 통해 확률변수의 확률분포함수를 추정 할 뿐이다.
- 확률변수에서 만들어진 실제 데이터는 확률변수의 특성이 반영되어 있다. 데이터 개수가 증가할수록 더욱 명확하게 확률 변수의 확률분포함수를 묘사할수 있게 된다.
역설계(reverse engineering)
- 확률변수를 이용한 데이터 분석의 순서는
- 데이터를 수집하고
- 수집한 데이터가 어떤 확률변수의 표본데이터라고 가정한다.
- 데이터를 사용하여 해당 확률변수의 확률분포함수의 모양을 결정한다.
- 결정된 확률변수로부터 다음에 생성될 데이터나 데이터 특성을 예측한다.
- 3번째 과정을 역설계라고 하고, 가장 중요한 부분이다.
- 역설계의 방법은 여러가지가 있는데 그중에서, 데이터 분포가 가지는 표본평균, 표본분산등의 기술통계값을 구해서, 이같은 기술통계값을 가지느 확률변수의 확률분포함수를 찾는다.
이산확률변수
- 확률변수의 값이 연속적이지 않고 떨어져 있도록 정의할수 있으면 이산확률변수라고 한다.
- 주사위를 던졌을때 나오는 숫자는 연속적이지 않은 1부터 6까지의 숫자이다.
- 이때 주사위는 1부터 6까지의 표본을 출력해 내는 이산확률변수라고 할수 있다.
연속확률변수
- 주사위가 아닌 원반의 각도처럼 연속적이고 무한대의 실수 표본값을 가지는 확률변수를 연속확률변수라고 한다.
- 모든 표본이 실수인 숫자로 변한다면 확률이 어떻게 할당되었는지 나타내는 정보인 확률분포를 확률분포함수로 나타낼수 있다. ## 확률변수를 이용한 데이터 분석
- 데이터 수집 및 전처리
- 수집한 데이터를 임의의 확률변수의 표본 데이터라 가정
- 확률변수의 확률분포함수 모양 결정 = "역설계, 추정"
- 결정된 확률변수로 다음에 생성될 데이터의 특성 예측
확률변수의 기대값
- \(E[X]\)는 범함수:함수를 받아 함수를 뱉어내는 함수
- 이산확률변수의 기대값은 표본공간의 원소 \(x_i\)의 가중평균
- 연속확률변수의 기대값은 \(p(x)\)를 가중치로 하여 모든 가능한 표본x를 적분한값
확률변수의 변환
- 기존의 확률변수를 사용하여 새로운 확률변수를 만드는것