【中心極限定理】測定値と標準誤差，コイン投げ

POINT

中心極限定理（Central limit theorem, CLT）の解説．
応用例として測定やコイン投げを紹介．

世の中に正規分布があふれる背景の一つに，中心極限定理の存在が挙げられます．

中心極限定理
【例】測定値と標準誤差
【例】Gaussの誤差論
【例】コイン投げ
参考文献/記事

中心極限定理

中心極限定理 (Central limit theorem, CLT)

平均$\mu$，分散$\sigma^2$の独立同一分布に従う確率変数列$X_1,...,X_n$を考える．このとき，

\begin{aligned} S_n \coloneqq \frac{X_1+\cdots +X_n}{n} \end{aligned}

に対して

\begin{aligned} \lim_{n\to\infty} P\Biggl(\frac{(S_n-\mu)}{\sigma/\sqrt{n}}\leq z\Biggr) &=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^z e^{-x^2/2}\,\mathrm{d}x \end{aligned}

が成立する．

従って，$n$が十分大きいとき

\begin{aligned}
P\left(S_n\leq z\right)
&=P\left(\frac{(S_n-\mu)}{\sigma/\sqrt{n}} \leq \frac{(z-\mu)}{\sigma/\sqrt{n}}\right)\\
&\simeq\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\frac{(z-\mu)}{\sigma/\sqrt{n}}} e^{-x^2/2}\,\mathrm{d}x\\
&=\frac{1}{\sqrt{2\pi(\sigma/\sqrt{n})^2}}\int_{-\infty}^z\exp\left[-\frac{(x-\mu)^2}{2(\sigma/\sqrt{n})^2}\right]\,\mathrm{d}x
\end{aligned}

となります．これは，平均$\mu$，分散$\sigma^2/n$の正規分布です．

【例】測定値と標準誤差

「ノギスで物体の長さを繰り返し測定する」場合について考えましょう．このとき，測定値は毎回同じ値ではなく，ある分布に従うはずです．

「真値が，この分布の平均値$\mu$に一致する」と仮定し，$n$回の測定で真値(=平均値)を推定する事を考えましょう．以下で断りなく用いる「推定量」については，以下の記事を参照して下さい．

真値$\mu$の推定量について，中心極限定理から言えること

$i$回目の測定値を与える確率変数を$X_i$ (平均$\mu$, 分散$\sigma^2$)とするとき，平均値の推定量は

\begin{aligned}
S_n=\frac{X_1+\cdots +X_n}{n}
\end{aligned}

で表せます．
※ この推定値もある分布に従います（測定値が変われば「$n$回の測定の平均値」は同じ値にはなりません)．

ここで，$n$が十分大きく，中心極限定理により$S_n$が正規分布とみなせる場合には

真値$\mu$ = $S_n$の平均値 = $S_n$の最頻値
が成り立ちます．つまり，$S_n$は真値$\mu$を取る確率が最も大きくなります．

しかし，標準偏差(バラツキ)が大きく「真値$\mu$以外の値を取る確率」が大きくなってしまっては，真値を精度良く推定できません．つまり，$S_n$の取る値が，真値$\mu$の周りの狭い範囲に分布していることが重要です．

実は，$n$を大きくすることで標準偏差が小さくなることがわかります．

標準誤差

簡単な計算(平均・分散・標準偏差の推定（点推定） - Notes_JP)から，

\begin{aligned}
V(S_n)
=\frac{\sigma^2}{n}
\end{aligned}

が示せます (※ これは，中心極限定理とは無関係に成立します)．特に，中心極限定理が成立する場合には，正規分布の分散が上式で与えられることを見ましたね．従って「確率変数$S_n$の分布の標準偏差」は$\sigma/\sqrt{n}$となります．この値を標準誤差と呼びます．

式からわかるように，より多くの測定をして平均を取ることで，標準誤差を小さくすることができます．

標準誤差の推定

$n$回の測定による$\sigma$の推定値は

\begin{aligned}
\sqrt{ \frac{1}{n-1}\sum_{i=1}^n \left(X_i-S_n\right)^2}
\end{aligned}

で与えられるので，標準誤差は以下の式で推定できます：

標準誤差の推定値

\begin{aligned} \sqrt{ \frac{1}{n(n-1)}\sum_{i=1}^n \left(X_i-S_n\right)^2} \end{aligned}

【例】Gaussの誤差論

上では，「真値が，測定値の分布の平均値$\mu$に一致する」と仮定しました．実は，「系統誤差」を除けば，測定値は

平均値が真値$\mu$
分散が「偶然誤差の分散$\sigma^2$」

の正規分布に従うことが示されます．

このとき，中心極限定理を用いることなく「$n$回の測定の平均値」の分布が

平均値が真値$\mu$
分散が$\sigma^2/n$

の正規分布に従うことが示されます．例えば，確率論 (岩波基礎数学選書)$\S 4.8$を参照して下さい．

【例】コイン投げ

$n$回のコイン投げで，表の出た回数$T_n$が$(a,b]$の範囲にある確率$P(a < T_n\leq b)$を見積もる事を考えましょう．

このとき，$X_n$を

\begin{aligned}
X_n=
\begin{cases}
\,1&(n\text{回目に表})\\
\,0&(n\text{回目に裏})
\end{cases}
\end{aligned}

で定めると，$\{X_n\}$は独立確率変数列となります．

$P(X_n=1)=P(X_n=0)=1/2$より$\mu=\sigma=1/2$なので，表の出た回数

\begin{aligned}
T_n \coloneqq X_1+\cdots +X_n
\end{aligned}

は$n$が十分大きいときに

\begin{aligned}
P\Biggl(a < T_n\leq b\Biggr)
&\simeq\frac{1}{\sqrt{2\pi(1/2\sqrt{n})^2}}\int_{a}^{b} \exp\left[-\frac{(x-1/2)^2}{2(1/2\sqrt{n})^2}\right]\,\mathrm{d}x
\end{aligned}

と見積もることができます．

参考文献/記事

確率論 (岩波基礎数学選書)
- 作者:清, 伊藤
- 岩波書店
Amazon
https://dora.bk.tsukuba.ac.jp/~takeuchi/?はじめての誤差論