POINT
母比率(知りたい真の値)を$p$とするとき,すべての標本が確率$p$で性質をもつと考えれば,「ベルヌーイ母集団からの無作為標本」と考えることができます.- 母集団に知りたい性質を持つものが「ある比率」で含まれるときに,無作為標本で比率を推定する方法.
さらに,サンプルサイズが大きければ,中心極限定理を使うことができます.
ベルヌーイ分布の期待値・分散は簡単に求められるので,都度導出すれば良いと思います.
【関連記事】
問題設定
母集団の中で,ある性質$A$を持つものの比率を知りたい(真の値を$p$とする).母集団全ては調べられないので,大きさ$n$の無作為標本により推定することを考える.ただし,$n$は十分大きいとする(中心極限定理が使えるくらい).
モデル化
これを,母比率$p$のベルヌーイ母集団からの無作為標本でモデル化する.つまり,各標本が性質$A$を持つかどうかは,標本を抽出する際に確率$p$(母集団の真の比率)のコイン投げをして決まるとする.例
- 母集団:国民全体,性質$A$:政策支持率
ベルヌーイ分布
定義
$X$を確率変数,$0 < p < 1$とする.\begin{aligned}
\begin{cases}
\, P(X = 1) = p \\
\, P(X = 0) = 1 - p
\end{cases}
\end{aligned}
を満たすとき,$X$はベルヌーイ分布に従うという.\begin{cases}
\, P(X = 1) = p \\
\, P(X = 0) = 1 - p
\end{cases}
\end{aligned}
これは,表が確率$p$で出るコイン投げで,表を$1$,裏を$0$で表したモデルとみなせる.
期待値
期待値は\begin{aligned}
&\mu = E[X] \\
& = \sum_{x \in \{0,1\}} x P(X = x) \\
&= 0\cdot(1-p) + 1\cdot p \\
&=p
\end{aligned}
である.&\mu = E[X] \\
& = \sum_{x \in \{0,1\}} x P(X = x) \\
&= 0\cdot(1-p) + 1\cdot p \\
&=p
\end{aligned}
ベルヌーイ分布の期待値
\begin{aligned}
&\mu = E[X] =p
\end{aligned}
&\mu = E[X] =p
\end{aligned}
分散
分散は,\begin{aligned}
& \sigma^{2} = V[X]=E[(X - \mu)^{2}] \\
& = \sum_{x \in \{0,1\}} (x - p)^{2} P(X = x) \\
&= p^{2} \cdot(1-p) + (1-p)^{2}\cdot p \\
&=p(1-p) \cdot (p + (1-p)) \\
&=p(1-p)
\end{aligned}
となる.& \sigma^{2} = V[X]=E[(X - \mu)^{2}] \\
& = \sum_{x \in \{0,1\}} (x - p)^{2} P(X = x) \\
&= p^{2} \cdot(1-p) + (1-p)^{2}\cdot p \\
&=p(1-p) \cdot (p + (1-p)) \\
&=p(1-p)
\end{aligned}
あるいは
\begin{aligned}
V[X]
&= E[(X - \mu)^{2}] \\
&= E[X^{2}] -2\mu E[X] + E[X]^{2} \\
&= E[X^{2}] -\mu^{2}
\end{aligned}
を使えば,V[X]
&= E[(X - \mu)^{2}] \\
&= E[X^{2}] -2\mu E[X] + E[X]^{2} \\
&= E[X^{2}] -\mu^{2}
\end{aligned}
\begin{aligned}
&E[X^{2}] \\
& = \sum_{x \in \{0,1\}} x^{2} P(X = x) \\
&= 0\cdot(1-p) + 1\cdot p \\
&=p
\end{aligned}
より&E[X^{2}] \\
& = \sum_{x \in \{0,1\}} x^{2} P(X = x) \\
&= 0\cdot(1-p) + 1\cdot p \\
&=p
\end{aligned}
\begin{aligned}
V[X]
&= p - p^{2} \\
&= p(1-p)
\end{aligned}
となる.V[X]
&= p - p^{2} \\
&= p(1-p)
\end{aligned}
ベルヌーイ分布の分散
\begin{aligned}
V[X]
&= p(1-p)
\end{aligned}
V[X]
&= p(1-p)
\end{aligned}
中心極限定理
$X_{1}, ..., X_{n}$が互いに独立で,平均$\mu$,分散$\sigma^{2}$の同一の分布に従うとする.このとき,$n$が十分に大きければ,標本平均\begin{aligned}
\bar{X}
= \sum_{i = 1}^{n} X_{i}
\end{aligned}
の分布は,正規分布\bar{X}
= \sum_{i = 1}^{n} X_{i}
\end{aligned}
\begin{aligned}
N(\mu, \sigma^{2}/n)
\end{aligned}
で近似できる(中心極限定理).N(\mu, \sigma^{2}/n)
\end{aligned}
したがって,いま考えている「ベルヌーイ母集団からの無作為標本」で標本の大きさ$n$が十分に大きい場合は,標本平均$\bar{X}$の確率分布は
\begin{aligned}
N(p, p(1-p)/n)
\end{aligned}
で近似できる.N(p, p(1-p)/n)
\end{aligned}
母比率の信頼区間
標本平均が$\bar{X}$であったとき,信頼係数$100(1-\alpha) \%$の信頼区間を求めたい.以下,標準正規分布に従う確率変数$Z \sim N(0, 1)$に対し,上側$100 \alpha \%$点$z_{\alpha}$を
\begin{aligned}
P(Z \geq z_{\alpha}) = \alpha
\end{aligned}
と表すことにする.P(Z \geq z_{\alpha}) = \alpha
\end{aligned}
このとき,
信頼区間
正規分布$\bar{X} \sim N(\mu, \sigma^{2}/n)$の「信頼係数$100(1-\alpha) \%$の信頼区間」は
となる.\begin{aligned}
-z_{\alpha/2}
\leq Z = \frac{\bar{X} - \mu}{ \sqrt{\sigma^{2} / n}}
\leq z_{\alpha/2}
\end{aligned}
より-z_{\alpha/2}
\leq Z = \frac{\bar{X} - \mu}{ \sqrt{\sigma^{2} / n}}
\leq z_{\alpha/2}
\end{aligned}
\begin{aligned}
\bar{X} - z_{\alpha/2} \sqrt{\sigma^{2} / n}
\leq \mu \leq
\bar{X} + z_{\alpha/2} \sqrt{\sigma^{2} / n}
\end{aligned}
\bar{X} - z_{\alpha/2} \sqrt{\sigma^{2} / n}
\leq \mu \leq
\bar{X} + z_{\alpha/2} \sqrt{\sigma^{2} / n}
\end{aligned}
この式が「信頼区間」を表している.具体的な値は,
- 既知の値である$\bar{X}$を代入し,
- ベルヌーイ分布の分散$\sigma^{2} = p(1-p)$を代入し,$p$を既知の$\bar{X}$で近似する
母比率の検定
母比率が$p_{0}$であるかどうか,検定することを考える.つまり,検定問題は- $H_{0}$:$p = p_{0}$
- $H_{1}$:$p \neq p_{0}$
区間推定の場合と同じように,
\begin{aligned}
Z = \frac{\bar{X} - \mu}{ \sqrt{\sigma^{2} / n}}
\end{aligned}
に対して$Z \sim N(0, 1)$であるから,有意水準$\alpha$の検定はZ = \frac{\bar{X} - \mu}{ \sqrt{\sigma^{2} / n}}
\end{aligned}
- $|Z| > z_{\alpha / 2} \Rightarrow H_{0}$を棄却
- $|Z| \leq z_{\alpha / 2} \Rightarrow H_{0}$を採択
参考文献
- [1] 入門統計解析 (倉田博史・星野崇宏):7.1.4 中心極限定理を用いた信頼区間,8.5.1 母比率の検定