카테고리분포와 다항분포

카테고리 확률변수

카테고리 확률변수는 1부터 \(K\)까지의 \(K\)개 정수값 중 하나가 나온다. 이 정수값을 범주값, 카테고리, 클래스 등으로 부른다. (주사위를 던져서 나오는 눈금 수는 \(K=6\)인 카테고리분포다)

원핫인코딩(One-Hot-Encoding)

카테고리는 스칼라값이지만, 카테고리 확률변수는 1과0으로만 이루어진 다차원 벡터를 출력한다.
스칼라값을 이렇게 벡터로 변환하는 것을 원핫인코딩이라고 한다.

\[ x = 1 \rightarrow x = (1,0,0,0,0,0) \\ x = 2 \rightarrow x = (0,1,0,0,0,0) \\ x = 3 \rightarrow x = (0,0,1,0,0,0) \\ x = 4 \rightarrow x = (0,0,0,1,0,0) \\ x = 5 \rightarrow x = (0,0,0,0,1,0) \\ x = 6 \rightarrow x = (0,0,0,0,0,1) \\ \]

따라서 카테고리 확률변수의 값도 벡터로 표시한다. \[x = (x_1,x_2,x_3,x_4,x_5,x_6)\]
- 벡터의 원소 \(x_k\)값으로 0 또는 1만 가능하고,
- 벡터의 원소 \(x_k\)중 하나만 1일수 있다.
각각의 \(x_k\)는 베르누이 확률변수로 볼 수 잇기 때문에, 1이 나올 확률을 나타내는 모수 \(\mu_k\)를 가진다. 따라서 카테고리분포의 모수는 벡터로 나타낸다

\[\mu = (\mu_1,\dots,\mu_k)\]

모수벡터의 조건은 \[0 \leq \mu_i \leq 1\] \[\sum_{k=1}^{K}\mu_k = 1\]
- 모수값 \(\mu_k\)는 0과 1사이의 값이고
- 모수값 \(\mu_k\)의 전체 합은 1이다

카테고리 확률분포

\[Cat(x_1,x_2,\dots,x_k;\mu_1,\dots,\mu_k)\]

로 표기하거나 벡터 \(x,mu\)를 이용하여

\[Cat(x;mu)\] 로 표기한다

카테고리 확률변수의 확률질량함수는 원핫인코딩을 사용해보면

\[Cat(x;\mu) = \mu_1^{x_1}\mu_2^{x_2}\dots \mu_k^{x_k} = \prod_{k=1}^{k}\mu_k^{x_k}\]

카테고리분포의 모멘트

기대값

\[E[x_k] = \mu_k\]

분산

\[Var[x_k] = \mu_k(1-\mu_k)\]

다항분포

베르누이 확률변수의 데이터가 복수이면 이 데이터의 합은 : 이항분포
카테고리 확률변수의 데이터가 복수이면 이 데이터의 합은 : 다항분포
동전을 \(N\)번 던져 앞면이 나온 횟수의 분포 = 이항분포
주사위를 \(N\)번 던져 각 면이 나온 횟수의 집합의 분포 = 다항분포
다항분포는 카테고리가 \(K\)개인 카테고리 확률변수의 표본데이터를 \(N\)개 얻었을 때, 각각의 카테고리 \(k = (x_1,\dots,x_k)\)가 각각 \(x_k\)번 나올 확률분포, 즉 표본값이 벡터 \(x = (x_1,\dots,x_k)\)가 되는 확률분포이다.
- \(x = (1,2,1,2,3,1)\)은 주사위를 10번 던져서 1인면이 1번, 2인면이 2번, 3인면이 1번 ... 나왔다는 뜻이다.
다항분포의 확률질량함수는

\[Mu(x;N,\mu) = \begin{pmatrix}N \\ x \end{pmatrix} \prod_{k=1}^{k}\mu_k^{x_k} = \begin{pmatrix}N \\ x_1,\dots,x_k \end{pmatrix} \prod_{k=1}^{k}\mu_k^{x_k}\]

다항분포의 모멘트

기대값

\[E[x_k] = N\mu_k\]

분산

\[Var[x_k] = N\mu_k(1-\mu_k)\]