【中心極限定理】測定値と標準誤差,コイン投げ

POINT

  • 中心極限定理(Central limit theorem, CLT)の解説.
  • 応用例として測定やコイン投げを紹介.

世の中に正規分布があふれる背景の一つに,中心極限定理の存在が挙げられます.

中心極限定理

中心極限定理 (Central limit theorem, CLT)
平均$\mu$,分散$\sigma^2$の独立同一分布に従う確率変数列$X_1,...,X_n$を考える.このとき,
\begin{aligned} S_n \coloneqq \frac{X_1+\cdots +X_n}{n} \end{aligned}
に対して
\begin{aligned} \lim_{n\to\infty} P\Biggl(\frac{(S_n-\mu)}{\sigma/\sqrt{n}}\leq z\Biggr) &=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^z e^{-x^2/2}\,\mathrm{d}x \end{aligned}
が成立する.


従って,$n$が十分大きいとき

\begin{aligned}
P\left(S_n\leq z\right)
&=P\left(\frac{(S_n-\mu)}{\sigma/\sqrt{n}} \leq \frac{(z-\mu)}{\sigma/\sqrt{n}}\right)\\
&\simeq\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\frac{(z-\mu)}{\sigma/\sqrt{n}}} e^{-x^2/2}\,\mathrm{d}x\\
&=\frac{1}{\sqrt{2\pi(\sigma/\sqrt{n})^2}}\int_{-\infty}^z\exp\left[-\frac{(x-\mu)^2}{2(\sigma/\sqrt{n})^2}\right]\,\mathrm{d}x
\end{aligned}
となります.これは,平均$\mu$,分散$\sigma^2/n$の正規分布です.

【例】測定値と標準誤差

「ノギスで物体の長さを繰り返し測定する」場合について考えましょう.このとき,測定値は毎回同じ値ではなく,ある分布に従うはずです.

「真値が,この分布の平均値$\mu$に一致する」と仮定し,$n$回の測定で真値(=平均値)を推定する事を考えましょう.以下で断りなく用いる「推定量」については,以下の記事を参照して下さい.


真値$\mu$の推定量について,中心極限定理から言えること

$i$回目の測定値を与える確率変数を$X_i$ (平均$\mu$, 分散$\sigma^2$)とするとき,平均値の推定量は
\begin{aligned}
S_n=\frac{X_1+\cdots +X_n}{n}
\end{aligned}
で表せます.
※ この推定値もある分布に従います(測定値が変われば「$n$回の測定の平均値」は同じ値にはなりません).


ここで,$n$が十分大きく,中心極限定理により$S_n$が正規分布とみなせる場合には

真値$\mu$ = $S_n$の平均値 = $S_n$の最頻値

が成り立ちます.つまり,$S_n$は真値$\mu$を取る確率が最も大きくなります.

しかし,標準偏差(バラツキ)が大きく「真値$\mu$以外の値を取る確率」が大きくなってしまっては,真値を精度良く推定できません.つまり,$S_n$の取る値が,真値$\mu$の周りの狭い範囲に分布していることが重要です.

実は,$n$を大きくすることで標準偏差が小さくなることがわかります.

標準誤差

簡単な計算(平均・分散・標準偏差の推定(点推定) - Notes_JP)から,
\begin{aligned}
V(S_n)
=\frac{\sigma^2}{n}
\end{aligned}
が示せます (※ これは,中心極限定理とは無関係に成立します).特に,中心極限定理が成立する場合には,正規分布の分散が上式で与えられることを見ましたね.従って「確率変数$S_n$の分布の標準偏差」は$\sigma/\sqrt{n}$となります.この値を標準誤差と呼びます.

式からわかるように,より多くの測定をして平均を取ることで,標準誤差を小さくすることができます.

標準誤差の推定

$n$回の測定による$\sigma$の推定値は
\begin{aligned}
\sqrt{ \frac{1}{n-1}\sum_{i=1}^n \left(X_i-S_n\right)^2}
\end{aligned}
で与えられるので,標準誤差は以下の式で推定できます:

標準誤差の推定値
\begin{aligned} \sqrt{ \frac{1}{n(n-1)}\sum_{i=1}^n \left(X_i-S_n\right)^2} \end{aligned}

【例】Gaussの誤差論

上では,「真値が,測定値の分布の平均値$\mu$に一致する」と仮定しました.実は,「系統誤差」を除けば,測定値は

  • 平均値が真値$\mu$
  • 分散が「偶然誤差の分散$\sigma^2$」

の正規分布に従うことが示されます.

このとき,中心極限定理を用いることなく「$n$回の測定の平均値」の分布が

  • 平均値が真値$\mu$
  • 分散が$\sigma^2/n$

の正規分布に従うことが示されます.例えば,確率論 (岩波基礎数学選書)$\S 4.8$を参照して下さい.

【例】コイン投げ

$n$回のコイン投げで,表の出た回数$T_n$が$(a,b]$の範囲にある確率$P(a < T_n\leq b)$を見積もる事を考えましょう.

このとき,$X_n$を

\begin{aligned}
X_n=
\begin{cases}
\,1&(n\text{回目に表})\\
\,0&(n\text{回目に裏})
\end{cases}
\end{aligned}
で定めると,$\{X_n\}$は独立確率変数列となります.

$P(X_n=1)=P(X_n=0)=1/2$より$\mu=\sigma=1/2$なので,表の出た回数

\begin{aligned}
T_n \coloneqq X_1+\cdots +X_n
\end{aligned}
は$n$が十分大きいときに
\begin{aligned}
P\Biggl(a < T_n\leq b\Biggr)
&\simeq\frac{1}{\sqrt{2\pi(1/2\sqrt{n})^2}}\int_{a}^{b} \exp\left[-\frac{(x-1/2)^2}{2(1/2\sqrt{n})^2}\right]\,\mathrm{d}x
\end{aligned}
と見積もることができます.

参考文献/記事