分散分析

POINT

  • 分散分析(Analysis of variance (ANOVA))についてのメモ.

都度更新.

【関連記事】

1元配置

問題設定

要因$A$の水準$A_{1}, A_{2}, ..., A_{a}$について,それぞれ$r$個の観測値が得られたとする.

水準$A{i}$の$j$回目の観測値を$x_{ij}$とすると,下表で整理できる.

一元配置のデータ
要因$A$の水準 観測値 標本平均
$A_{1}$ $x_{11}$ $\cdots$ $x_{1r}$ $\bar{x}_{1 \cdot}$
$\vdots$ $\vdots$ $\ddots$ $\vdots$ $\vdots$
$A_{a}$ $x_{a1}$ $\cdots$ $x_{ar}$ $\bar{x}_{a \cdot}$
総平均 $\bar{\bar{x}}$

ここで,データ構造を

\begin{aligned}
& x_{ij} = \mu + \alpha_{i} + \epsilon_{ij} \\
&
\begin{cases}
\, \displaystyle \sum_{i=1}^{a} \alpha_{i} = 0 \\
\, \epsilon_{ij} \sim N(0, \sigma^{2}) & (\epsilon_{ij}\text{は互いに独立})
\end{cases}
\end{aligned}
でモデル化する.

つまり,$\alpha_{i} \neq 0$なる$i$があれば,要因$A$の水準の効果があることを意味する.また,$ \sum_{i=1}^{a} \alpha_{i} = 0 $は$ \sum_{i=1}^{a} (\mu + \alpha_{i}) = a\mu \Leftrightarrow \mu = \frac{1}{a} \sum_{i=1}^{a} (\mu + \alpha_{i}) $を意味するから,$\mu$の原点を平均値に取ったことを意味する.

平方和

総平方和
\begin{aligned}
S_{T}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} (x_{ij} - \bar{\bar{x}})^{2}
\quad \biggl(\bar{\bar{x}} = \frac{1}{ar} \sum_{i=1}^{a} \sum_{j = 1}^{r} x_{ij} \biggr)
\end{aligned}
を,水準間平方和
\begin{aligned}
S_{A}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}
\quad \biggl(\bar{x}_{i \cdot} = \frac{1}{r} \sum_{j = 1}^{r} x_{ij} \biggr) \\
&=r \sum_{i=1}^{a} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}
\end{aligned}
とそれ以外(残差平方和$S_{e}$)に分解する.このとき,総変動$S_{T}=S_{A}+S_{e}$に占める$S_{A}$の割合が大きければ,ランダム変動では説明できない(要因$A$の水準による影響がある)と考えられる.

具体的には

\begin{aligned}
S_{T}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} [ (\textcolor{red}{\bar{x}_{i \cdot}} - \bar{\bar{x}}) + (x_{ij} \textcolor{red}{- \bar{x}_{i \cdot} }) ]^{2} \\
&=\overbrace{\sum_{i=1}^{a} \sum_{j = 1}^{r} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}}^{=S_{A}} \\
&\qquad
+ \overbrace{\sum_{i=1}^{a} \sum_{j = 1}^{r} (x_{ij} - \bar{x}_{i \cdot})^{2}}^{=S_{e}} \\
&\qquad
\cancel{+ 2 \sum_{i=1}^{a} \underbrace{\sum_{j = 1}^{r} (x_{ij} - \bar{x}_{i \cdot})}_{=0} (\bar{x}_{i \cdot} - \bar{\bar{x}})}
\end{aligned}
となる.

自由度

  • $\phi_{T} = \text{(総データ数)} - 1 = ar - 1$
  • $\phi_{A} = \text{($A$の水準数)} - 1 = a - 1$
  • $\phi_{e} = \phi_{T} - \text{(要因効果の全ての自由度)} = \phi_{T} - \phi_{A} = ar - a$

自由度$\phi_{T}$は$\sum_{i,j} (x_{ij} - \bar{\bar{x}}) = 0$の情報を差し引いたものだと解釈でき,自由度$\phi_{A}$は$\sum_{i} (\bar{x}_{i \cdot} - \bar{\bar{x}}) = 0$の情報を差し引いたものだと解釈できる(文献[1] Q3).

分散分析表

以上より,分散分析表を作成できる.

検定統計量$F$は,自由度$(\phi_{A}, \phi_{e})$の$F$分布に従う.$F$が大きいほど,総変動に対する要因$A$の寄与が,ランダム変動の寄与よりも大きいと解釈できる.

分散分析表
要因 平方和$S$ 自由度$\phi$ 平均変動$V$ $F$
$A$ $S_{A}$ $\phi_{A} = a - 1$ $V_{A} = S_{A} / \phi_{A}$ $F = V_{A} / V_{e}$
$e$ $S_{e}$
\begin{aligned}\phi_{e} &= \phi_{T} - \phi_{A} \\ &= ar - a \end{aligned}
$V_{e} = S_{e} / \phi_{e}$
$S_{T}$ $\phi_{T} = ar - 1$

効果の検定

要因$A$が観測値$y$に影響を与えているかを知りたい.

これは,検定

  • $H_{0}: \alpha_{1} = \alpha_{2} = \cdots = \alpha_{a} = 0$
  • $H_{1}: \alpha_{i} \neq 0$となる$i$が存在する
で確認できる.

具体的には,有意水準$\alpha$の検定は

  • $F > F_{\alpha} (\phi_{A}, \phi_{e}) \Rightarrow H_{0}$を棄却
  • $F \leq F_{\alpha} (\phi_{A}, \phi_{e}) \Rightarrow H_{0}$を採択
とすれば良い.


2元配置

作成中...

参考文献