- ベルヌーイ分布を一般化し,多項分布を得る.
ベルヌーイ分布を一般化して多項分布へ至る方法として,2通りの方法
- ベルヌーイ分布→二項分布→多項分布
- ベルヌーイ分布:コイン(2面サイコロ)を1回投げる.
- 二項分布:コイン(2面サイコロ)を複数回投げる.
- 多項分布:多面サイコロを複数回投げる.
- ベルヌーイ分布→カテゴリ分布→多項分布
- ベルヌーイ分布:コイン(2面サイコロ)を1回投げる.
- カテゴリ分布:多面サイコロを1回投げる.
- 多項分布:多面サイコロを複数回投げる.
ベルヌーイ分布→二項分布→多項分布
確率$\mu$で表の出るコインを1回だけ振ることを考える.表の出る事象を$x=1$で表し,裏の出る事象を$x=0$で表すことにする.つまり,$x$は「表の出る回数」を表している.このとき,当然- $0 < \mu <1$($\mu \in (0,1)$)
- $x=0,1$のいずれか($x\in\{0,1\}$)
表の出る確率と裏の出る確率は,次のようにまとめて表すことができる.
\mathrm{Bern\,}(x|\mu)
&=\mu^x (1-\mu)^{1-x}
\end{aligned}
実際,
- 表の出る確率:$\mathrm{Bern\,}(1|\mu)=\mu$
- 裏の出る確率:$\mathrm{Bern\,}(0|\mu)=1-\mu$
次に,コインを$M$回振った場合に拡張することを考える.このとき,表の出る回数を$m$で表すことにする.
確率$\mu$の事象が$m$回起こり,確率$1-\mu$の事象が$M-m$回起こる確率は
\mathrm{Bin\,}(m|M,\mu)
&={}_MC_m \mu^m \, (1-\mu)^{M-m}
\end{aligned}
{}_MC_m
=
\begin{pmatrix}
M\\
m
\end{pmatrix}
=\frac{M!}{m!(M-m)!}
\end{aligned}
この$\mathrm{Bin\,}(m|M,\mu)$を,「二項分布」と呼ぶ.
最後に,コインの面の数を増やす一般化を行う.具体的には,各面$1,2,...,K$の出る確率がそれぞれ$\pi_1,\pi_2,...,\pi_K$で与えられる$K$面サイコロを$M$回降る場合を考える(つまり,$0 < \pi_k < 1$かつ$\displaystyle \sum_{k=1}^K \pi_k = 1$を満たす).
コイン(二項分布)では,変数$m$で「表が出た回数」表した.サイコロでこの考え方を一般化する事を考える.すなわち,各面$1,2,...,K$に対して変数$m_1,m_2,...,m_K$を用意し,$m_k$で「面$k$が出た回数」を表す(つまり,$m_k=1,2,...,M$かつ$\displaystyle \sum_{k=1}^K m_k = M$をみたす).
各面がそれぞれ$m_1,m_2,...,m_K$回出る確率は,
\mathrm{Mult\,}(\boldsymbol{m}|\boldsymbol{\pi},M)
&=\frac{M!}{m_1!m_2!\cdots m_K!} \pi_1^{m_1} \pi_2^{m_2} \cdots \pi_K^{m_K} \\
&=M!\prod_{k=1}^K \frac{\pi_k^{m_k}}{m_k!}
\end{aligned}
\boldsymbol{m}
&={}^t(m_1,m_2,...,m_K)
\end{aligned}
この$ \mathrm{Mult\,}(\boldsymbol{m}|\boldsymbol{\pi},M)$を,「多項分布」と呼ぶ.
ベルヌーイ分布→カテゴリ分布→多項分布
「ベルヌーイ分布」については,上を参照.コイン(2面サイコロ)の面の数を増やすことを考える.つまり,「コインを1回だけ降る」→「サイコロを1回だけ振る」という一般化を行う.
コイン(ベルヌーイ分布)では,変数$x$を用いて「表を$x=1$」と表し「裏を$x=0$」と表した.これは見方を変えれば,「表」だけを使って
- $x=1$:表が「出た」状態
- $x=0$:表が「出ていない」状態
- $s_k=1$:面$k$が「1回出た」状態
- $s_k=0$:面$k$が「0回出た」状態
これら$s_1,s_2,...,s_K$をまとめたベクトル$\boldsymbol{s}={}^t(s_1,s_2,...,s_K)$で,どの面が出たかの状態を表現することができる.
さらに,サイコロの各面$1,2,...,K$が出る確率がそれぞれ$\pi_1,\pi_2,...,\pi_K$であるとすれば,$0 < \pi_k < 1$かつ$\displaystyle \sum_{k=1}^K \pi_k = 1$が成り立つ.
各面がそれぞれ$s_1,s_2,...,s_K$回出る確率は,
\mathrm{Cat\,}(\boldsymbol{s}|\boldsymbol{\pi})
=\prod_{k=1}^K \pi_k^{s_k}
\end{aligned}
サイコロを複数回振る一般化を行えば,「多項分布」が得られる.詳しくは上を参照.
$s_1,s_2,...,s_K$を$m_1,m_2,...,m_K$で読み替えれば良い.