母比率(信頼区間・検定)

POINT

  • 母集団に知りたい性質を持つものが「ある比率」で含まれるときに,無作為標本で比率を推定する方法.

母比率(知りたい真の値)を$p$とするとき,すべての標本が確率$p$で性質をもつと考えれば,「ベルヌーイ母集団からの無作為標本」と考えることができます.

さらに,サンプルサイズが大きければ,中心極限定理を使うことができます.

ベルヌーイ分布の期待値・分散は簡単に求められるので,都度導出すれば良いと思います.

【関連記事】

問題設定

母集団の中で,ある性質$A$を持つものの比率を知りたい(真の値を$p$とする).母集団全ては調べられないので,大きさ$n$の無作為標本により推定することを考える.

ただし,$n$は十分大きいとする(中心極限定理が使えるくらい).

モデル化

これを,母比率$p$のベルヌーイ母集団からの無作為標本でモデル化する.つまり,各標本が性質$A$を持つかどうかは,標本を抽出する際に確率$p$(母集団の真の比率)のコイン投げをして決まるとする.

  • 母集団:国民全体,性質$A$:政策支持率



ベルヌーイ分布

定義

$X$を確率変数,$0 < p < 1$とする.
\begin{aligned}
\begin{cases}
\, P(X = 1) = p \\
\, P(X = 0) = 1 - p
\end{cases}
\end{aligned}
を満たすとき,$X$はベルヌーイ分布に従うという.

これは,表が確率$p$で出るコイン投げで,表を$1$,裏を$0$で表したモデルとみなせる.

期待値

期待値は
\begin{aligned}
&\mu = E[X] \\
& = \sum_{x \in \{0,1\}} x P(X = x) \\
&= 0\cdot(1-p) + 1\cdot p \\
&=p
\end{aligned}
である.

ベルヌーイ分布の期待値
\begin{aligned}
&\mu = E[X] =p
\end{aligned}

分散

分散は,
\begin{aligned}
& \sigma^{2} = V[X]=E[(X - \mu)^{2}] \\
& = \sum_{x \in \{0,1\}} (x - p)^{2} P(X = x) \\
&= p^{2} \cdot(1-p) + (1-p)^{2}\cdot p \\
&=p(1-p) \cdot (p + (1-p)) \\
&=p(1-p)
\end{aligned}
となる.

あるいは

\begin{aligned}
V[X]
&= E[(X - \mu)^{2}] \\
&= E[X^{2}] -2\mu E[X] + E[X]^{2} \\
&= E[X^{2}] -\mu^{2}
\end{aligned}
を使えば,
\begin{aligned}
&E[X^{2}] \\
& = \sum_{x \in \{0,1\}} x^{2} P(X = x) \\
&= 0\cdot(1-p) + 1\cdot p \\
&=p
\end{aligned}
より
\begin{aligned}
V[X]
&= p - p^{2} \\
&= p(1-p)
\end{aligned}
となる.

ベルヌーイ分布の分散
\begin{aligned}
V[X]
&= p(1-p)
\end{aligned}

中心極限定理

$X_{1}, ..., X_{n}$が互いに独立で,平均$\mu$,分散$\sigma^{2}$の同一の分布に従うとする.このとき,$n$が十分に大きければ,標本平均
\begin{aligned}
\bar{X}
= \sum_{i = 1}^{n} X_{i}
\end{aligned}
の分布は,正規分布
\begin{aligned}
N(\mu, \sigma^{2}/n)
\end{aligned}
で近似できる(中心極限定理).

したがって,いま考えている「ベルヌーイ母集団からの無作為標本」で標本の大きさ$n$が十分に大きい場合は,標本平均$\bar{X}$の確率分布は

\begin{aligned}
N(p, p(1-p)/n)
\end{aligned}
で近似できる.

母比率の信頼区間

標本平均が$\bar{X}$であったとき,信頼係数$100(1-\alpha) \%$の信頼区間を求めたい.

以下,標準正規分布に従う確率変数$Z \sim N(0, 1)$に対し,上側$100 \alpha \%$点$z_{\alpha}$を

\begin{aligned}
P(Z \geq z_{\alpha}) = \alpha
\end{aligned}
と表すことにする.

このとき,

信頼区間
正規分布$\bar{X} \sim N(\mu, \sigma^{2}/n)$の「信頼係数$100(1-\alpha) \%$の信頼区間」は
\begin{aligned}
-z_{\alpha/2}
\leq Z = \frac{\bar{X} - \mu}{ \sqrt{\sigma^{2} / n}}
\leq z_{\alpha/2}
\end{aligned}
より
\begin{aligned}
\bar{X} - z_{\alpha/2} \sqrt{\sigma^{2} / n}
\leq \mu \leq
\bar{X} + z_{\alpha/2} \sqrt{\sigma^{2} / n}
\end{aligned}
となる.

この式が「信頼区間」を表している.具体的な値は,

  • 既知の値である$\bar{X}$を代入し,
  • ベルヌーイ分布の分散$\sigma^{2} = p(1-p)$を代入し,$p$を既知の$\bar{X}$で近似する
こと計算できる.

母比率の検定

母比率が$p_{0}$であるかどうか,検定することを考える.つまり,検定問題は
  • $H_{0}$:$p = p_{0}$
  • $H_{1}$:$p \neq p_{0}$
となる.

区間推定の場合と同じように,

\begin{aligned}
Z = \frac{\bar{X} - \mu}{ \sqrt{\sigma^{2} / n}}
\end{aligned}
に対して$Z \sim N(0, 1)$であるから,有意水準$\alpha$の検定は
  • $|Z| > z_{\alpha / 2} \Rightarrow H_{0}$を棄却
  • $|Z| \leq z_{\alpha / 2} \Rightarrow H_{0}$を採択
とすればよい.


参考文献