POINT
- 中心極限定理(Central limit theorem, CLT)の解説.
- 応用例として測定やコイン投げを紹介.
世の中に正規分布があふれる背景の一つに,中心極限定理の存在が挙げられます.
中心極限定理
中心極限定理 (Central limit theorem, CLT)
平均$\mu$,分散$\sigma^2$の独立同一分布に従う確率変数列$X_1,...,X_n$を考える.このとき,
\begin{aligned}
S_n \coloneqq \frac{X_1+\cdots +X_n}{n}
\end{aligned}
に対して
\begin{aligned}
\lim_{n\to\infty}
P\Biggl(\frac{(S_n-\mu)}{\sigma/\sqrt{n}}\leq z\Biggr)
&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^z e^{-x^2/2}\,\mathrm{d}x
\end{aligned}
が成立する.
従って,$n$が十分大きいとき
\begin{aligned}
P\left(S_n\leq z\right)
&=P\left(\frac{(S_n-\mu)}{\sigma/\sqrt{n}} \leq \frac{(z-\mu)}{\sigma/\sqrt{n}}\right)\\
&\simeq\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\frac{(z-\mu)}{\sigma/\sqrt{n}}} e^{-x^2/2}\,\mathrm{d}x\\
&=\frac{1}{\sqrt{2\pi(\sigma/\sqrt{n})^2}}\int_{-\infty}^z\exp\left[-\frac{(x-\mu)^2}{2(\sigma/\sqrt{n})^2}\right]\,\mathrm{d}x
\end{aligned}
となります.これは,平均$\mu$,分散$\sigma^2/n$の正規分布です.P\left(S_n\leq z\right)
&=P\left(\frac{(S_n-\mu)}{\sigma/\sqrt{n}} \leq \frac{(z-\mu)}{\sigma/\sqrt{n}}\right)\\
&\simeq\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\frac{(z-\mu)}{\sigma/\sqrt{n}}} e^{-x^2/2}\,\mathrm{d}x\\
&=\frac{1}{\sqrt{2\pi(\sigma/\sqrt{n})^2}}\int_{-\infty}^z\exp\left[-\frac{(x-\mu)^2}{2(\sigma/\sqrt{n})^2}\right]\,\mathrm{d}x
\end{aligned}
【例】測定値と標準誤差
「ノギスで物体の長さを繰り返し測定する」場合について考えましょう.このとき,測定値は毎回同じ値ではなく,ある分布に従うはずです.「真値が,この分布の平均値$\mu$に一致する」と仮定し,$n$回の測定で真値(=平均値)を推定する事を考えましょう.以下で断りなく用いる「推定量」については,以下の記事を参照して下さい.
真値$\mu$の推定量について,中心極限定理から言えること
$i$回目の測定値を与える確率変数を$X_i$ (平均$\mu$, 分散$\sigma^2$)とするとき,平均値の推定量は\begin{aligned}
S_n=\frac{X_1+\cdots +X_n}{n}
\end{aligned}
で表せます.S_n=\frac{X_1+\cdots +X_n}{n}
\end{aligned}
※ この推定値もある分布に従います(測定値が変われば「$n$回の測定の平均値」は同じ値にはなりません).
ここで,$n$が十分大きく,中心極限定理により$S_n$が正規分布とみなせる場合には
が成り立ちます.つまり,$S_n$は真値$\mu$を取る確率が最も大きくなります.
しかし,標準偏差(バラツキ)が大きく「真値$\mu$以外の値を取る確率」が大きくなってしまっては,真値を精度良く推定できません.つまり,$S_n$の取る値が,真値$\mu$の周りの狭い範囲に分布していることが重要です.
実は,$n$を大きくすることで標準偏差が小さくなることがわかります.
標準誤差
簡単な計算(平均・分散・標準偏差の推定(点推定) - Notes_JP)から,\begin{aligned}
V(S_n)
=\frac{\sigma^2}{n}
\end{aligned}
が示せます (※ これは,中心極限定理とは無関係に成立します).特に,中心極限定理が成立する場合には,正規分布の分散が上式で与えられることを見ましたね.従って「確率変数$S_n$の分布の標準偏差」は$\sigma/\sqrt{n}$となります.この値を標準誤差と呼びます.V(S_n)
=\frac{\sigma^2}{n}
\end{aligned}
式からわかるように,より多くの測定をして平均を取ることで,標準誤差を小さくすることができます.
標準誤差の推定
$n$回の測定による$\sigma$の推定値は\begin{aligned}
\sqrt{ \frac{1}{n-1}\sum_{i=1}^n \left(X_i-S_n\right)^2}
\end{aligned}
で与えられるので,標準誤差は以下の式で推定できます:
\sqrt{ \frac{1}{n-1}\sum_{i=1}^n \left(X_i-S_n\right)^2}
\end{aligned}
標準誤差の推定値
\begin{aligned}
\sqrt{ \frac{1}{n(n-1)}\sum_{i=1}^n \left(X_i-S_n\right)^2}
\end{aligned}
【例】Gaussの誤差論
上では,「真値が,測定値の分布の平均値$\mu$に一致する」と仮定しました.実は,「系統誤差」を除けば,測定値は- 平均値が真値$\mu$
- 分散が「偶然誤差の分散$\sigma^2$」
の正規分布に従うことが示されます.
このとき,中心極限定理を用いることなく「$n$回の測定の平均値」の分布が
- 平均値が真値$\mu$
- 分散が$\sigma^2/n$
の正規分布に従うことが示されます.例えば,確率論 (岩波基礎数学選書)$\S 4.8$を参照して下さい.
【例】コイン投げ
$n$回のコイン投げで,表の出た回数$T_n$が$(a,b]$の範囲にある確率$P(a < T_n\leq b)$を見積もる事を考えましょう.このとき,$X_n$を
\begin{aligned}
X_n=
\begin{cases}
\,1&(n\text{回目に表})\\
\,0&(n\text{回目に裏})
\end{cases}
\end{aligned}
で定めると,$\{X_n\}$は独立確率変数列となります.X_n=
\begin{cases}
\,1&(n\text{回目に表})\\
\,0&(n\text{回目に裏})
\end{cases}
\end{aligned}
$P(X_n=1)=P(X_n=0)=1/2$より$\mu=\sigma=1/2$なので,表の出た回数
\begin{aligned}
T_n \coloneqq X_1+\cdots +X_n
\end{aligned}
は$n$が十分大きいときにT_n \coloneqq X_1+\cdots +X_n
\end{aligned}
\begin{aligned}
P\Biggl(a < T_n\leq b\Biggr)
&\simeq\frac{1}{\sqrt{2\pi(1/2\sqrt{n})^2}}\int_{a}^{b} \exp\left[-\frac{(x-1/2)^2}{2(1/2\sqrt{n})^2}\right]\,\mathrm{d}x
\end{aligned}
と見積もることができます.P\Biggl(a < T_n\leq b\Biggr)
&\simeq\frac{1}{\sqrt{2\pi(1/2\sqrt{n})^2}}\int_{a}^{b} \exp\left[-\frac{(x-1/2)^2}{2(1/2\sqrt{n})^2}\right]\,\mathrm{d}x
\end{aligned}