母比率（信頼区間・検定）

POINT

母集団に知りたい性質を持つものが「ある比率」で含まれるときに，無作為標本で比率を推定する方法．

母比率（知りたい真の値）を$p$とするとき，すべての標本が確率$p$で性質をもつと考えれば，「ベルヌーイ母集団からの無作為標本」と考えることができます．

さらに，サンプルサイズが大きければ，中心極限定理を使うことができます．

ベルヌーイ分布の期待値・分散は簡単に求められるので，都度導出すれば良いと思います．

【関連記事】

問題設定
- モデル化
- 例
ベルヌーイ分布
母比率の信頼区間
母比率の検定
参考文献

問題設定

母集団の中で，ある性質$A$を持つものの比率を知りたい（真の値を$p$とする）．母集団全ては調べられないので，大きさ$n$の無作為標本により推定することを考える．

ただし，$n$は十分大きいとする（中心極限定理が使えるくらい）．

モデル化

これを，母比率$p$のベルヌーイ母集団からの無作為標本でモデル化する．つまり，各標本が性質$A$を持つかどうかは，標本を抽出する際に確率$p$（母集団の真の比率）のコイン投げをして決まるとする．

例

母集団：国民全体，性質$A$：政策支持率

ベルヌーイ分布

定義

$X$を確率変数，$0 < p < 1$とする．

\begin{aligned}
\begin{cases}
\, P(X = 1) = p \\
\, P(X = 0) = 1 - p
\end{cases}
\end{aligned}

を満たすとき，$X$はベルヌーイ分布に従うという．

これは，表が確率$p$で出るコイン投げで，表を$1$，裏を$0$で表したモデルとみなせる．

期待値

期待値は

\begin{aligned}
&\mu = E[X] \\
& = \sum_{x \in \{0,1\}} x P(X = x) \\
&= 0\cdot(1-p) + 1\cdot p \\
&=p
\end{aligned}

である．

ベルヌーイ分布の期待値

\begin{aligned}
&\mu = E[X] =p
\end{aligned}

分散

分散は，

\begin{aligned}
& \sigma^{2} = V[X]=E[(X - \mu)^{2}] \\
& = \sum_{x \in \{0,1\}} (x - p)^{2} P(X = x) \\
&= p^{2} \cdot(1-p) + (1-p)^{2}\cdot p \\
&=p(1-p) \cdot (p + (1-p)) \\
&=p(1-p)
\end{aligned}

となる．

あるいは

\begin{aligned}
V[X]
&= E[(X - \mu)^{2}] \\
&= E[X^{2}] -2\mu E[X] + E[X]^{2} \\
&= E[X^{2}] -\mu^{2}
\end{aligned}

を使えば，

\begin{aligned}
&E[X^{2}] \\
& = \sum_{x \in \{0,1\}} x^{2} P(X = x) \\
&= 0\cdot(1-p) + 1\cdot p \\
&=p
\end{aligned}

より

\begin{aligned}
V[X]
&= p - p^{2} \\
&= p(1-p)
\end{aligned}

となる．

ベルヌーイ分布の分散

\begin{aligned}
V[X]
&= p(1-p)
\end{aligned}

中心極限定理

$X_{1}, ..., X_{n}$が互いに独立で，平均$\mu$，分散$\sigma^{2}$の同一の分布に従うとする．このとき，$n$が十分に大きければ，標本平均

\begin{aligned}
\bar{X}
= \sum_{i = 1}^{n} X_{i}
\end{aligned}

の分布は，正規分布

\begin{aligned}
N(\mu, \sigma^{2}/n)
\end{aligned}

で近似できる（中心極限定理）．

したがって，いま考えている「ベルヌーイ母集団からの無作為標本」で標本の大きさ$n$が十分に大きい場合は，標本平均$\bar{X}$の確率分布は

\begin{aligned}
N(p, p(1-p)/n)
\end{aligned}

で近似できる．

母比率の信頼区間

標本平均が$\bar{X}$であったとき，信頼係数$100(1-\alpha) \%$の信頼区間を求めたい．

以下，標準正規分布に従う確率変数$Z \sim N(0, 1)$に対し，上側$100 \alpha \%$点$z_{\alpha}$を

\begin{aligned}
P(Z \geq z_{\alpha}) = \alpha
\end{aligned}

と表すことにする．

このとき，

信頼区間

正規分布$\bar{X} \sim N(\mu, \sigma^{2}/n)$の「信頼係数$100(1-\alpha) \%$の信頼区間」は

\begin{aligned}
-z_{\alpha/2}
\leq Z = \frac{\bar{X} - \mu}{ \sqrt{\sigma^{2} / n}}
\leq z_{\alpha/2}
\end{aligned}

より

\begin{aligned}
\bar{X} - z_{\alpha/2} \sqrt{\sigma^{2} / n}
\leq \mu \leq
\bar{X} + z_{\alpha/2} \sqrt{\sigma^{2} / n}
\end{aligned}

となる．

この式が「信頼区間」を表している．具体的な値は，

既知の値である$\bar{X}$を代入し，
ベルヌーイ分布の分散$\sigma^{2} = p(1-p)$を代入し，$p$を既知の$\bar{X}$で近似する

こと計算できる．

母比率の検定

母比率が$p_{0}$であるかどうか，検定することを考える．つまり，検定問題は

$H_{0}$：$p = p_{0}$
$H_{1}$：$p \neq p_{0}$

となる．

区間推定の場合と同じように，

\begin{aligned}
Z = \frac{\bar{X} - \mu}{ \sqrt{\sigma^{2} / n}}
\end{aligned}

に対して$Z \sim N(0, 1)$であるから，有意水準$\alpha$の検定は

$|Z| > z_{\alpha / 2} \Rightarrow H_{0}$を棄却
$|Z| \leq z_{\alpha / 2} \Rightarrow H_{0}$を採択

とすればよい．

参考文献

[1] 入門統計解析 (倉田博史・星野崇宏)：7.1.4 中心極限定理を用いた信頼区間，8.5.1 母比率の検定