POINT
都度更新.- 分散分析(Analysis of variance (ANOVA))について.
【関連記事】
1元配置
問題設定
要因$A$の水準$A_{1}, A_{2}, ..., A_{a}$について,それぞれ$r$個の観測値が得られたとする.水準$A{i}$の$j$回目の観測値を$x_{ij}$とすると,下表で整理できる.
一元配置のデータ | ||||
---|---|---|---|---|
要因$A$の水準 | 観測値 | 標本平均 | ||
$A_{1}$ | $x_{11}$ | $\cdots$ | $x_{1r}$ | $\bar{x}_{1 \cdot}$ |
$\vdots$ | $\vdots$ | $\ddots$ | $\vdots$ | $\vdots$ |
$A_{a}$ | $x_{a1}$ | $\cdots$ | $x_{ar}$ | $\bar{x}_{a \cdot}$ |
総平均 | $\bar{\bar{x}}$ |
ここで,データ構造を
\begin{aligned}
& x_{ij} = \mu + \alpha_{i} + \epsilon_{ij} \\
&
\begin{cases}
\, \displaystyle \sum_{i=1}^{a} \alpha_{i} = 0 \\
\, \epsilon_{ij} \sim N(0, \sigma^{2}) & (\epsilon_{ij}\text{は互いに独立})
\end{cases}
\end{aligned}
でモデル化する.& x_{ij} = \mu + \alpha_{i} + \epsilon_{ij} \\
&
\begin{cases}
\, \displaystyle \sum_{i=1}^{a} \alpha_{i} = 0 \\
\, \epsilon_{ij} \sim N(0, \sigma^{2}) & (\epsilon_{ij}\text{は互いに独立})
\end{cases}
\end{aligned}
つまり,$\alpha_{i} \neq 0$なる$i$があれば,要因$A$の水準の効果があることを意味する.また,$ \sum_{i=1}^{a} \alpha_{i} = 0 $は$ \sum_{i=1}^{a} (\mu + \alpha_{i}) = a\mu \Leftrightarrow \mu = \frac{1}{a} \sum_{i=1}^{a} (\mu + \alpha_{i}) $を意味するから,$\mu$の原点を平均値に取ったことを意味する.
平方和
総平方和\begin{aligned}
S_{T}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} (x_{ij} - \bar{\bar{x}})^{2}
\quad \biggl(\bar{\bar{x}} = \frac{1}{ar} \sum_{i=1}^{a} \sum_{j = 1}^{r} x_{ij} \biggr)
\end{aligned}
を,水準間平方和S_{T}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} (x_{ij} - \bar{\bar{x}})^{2}
\quad \biggl(\bar{\bar{x}} = \frac{1}{ar} \sum_{i=1}^{a} \sum_{j = 1}^{r} x_{ij} \biggr)
\end{aligned}
\begin{aligned}
S_{A}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}
\quad \biggl(\bar{x}_{i \cdot} = \frac{1}{r} \sum_{j = 1}^{r} x_{ij} \biggr) \\
&=r \sum_{i=1}^{a} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}
\end{aligned}
とそれ以外(残差平方和$S_{e}$)に分解する.このとき,総変動$S_{T}=S_{A}+S_{e}$に占める$S_{A}$の割合が大きければ,ランダム変動では説明できない(要因$A$の水準による影響がある)と考えられる.S_{A}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}
\quad \biggl(\bar{x}_{i \cdot} = \frac{1}{r} \sum_{j = 1}^{r} x_{ij} \biggr) \\
&=r \sum_{i=1}^{a} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}
\end{aligned}
具体的には
\begin{aligned}
S_{T}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} [ (\textcolor{red}{\bar{x}_{i \cdot}} - \bar{\bar{x}}) + (x_{ij} \textcolor{red}{- \bar{x}_{i \cdot} }) ]^{2} \\
&=\overbrace{\sum_{i=1}^{a} \sum_{j = 1}^{r} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}}^{=S_{A}} \\
&\qquad
+ \overbrace{\sum_{i=1}^{a} \sum_{j = 1}^{r} (x_{ij} - \bar{x}_{i \cdot})^{2}}^{=S_{e}} \\
&\qquad
\cancel{+ 2 \sum_{i=1}^{a} \underbrace{\sum_{j = 1}^{r} (x_{ij} - \bar{x}_{i \cdot})}_{=0} (\bar{x}_{i \cdot} - \bar{\bar{x}})}
\end{aligned}
となる.S_{T}
&=\sum_{i=1}^{a} \sum_{j = 1}^{r} [ (\textcolor{red}{\bar{x}_{i \cdot}} - \bar{\bar{x}}) + (x_{ij} \textcolor{red}{- \bar{x}_{i \cdot} }) ]^{2} \\
&=\overbrace{\sum_{i=1}^{a} \sum_{j = 1}^{r} (\bar{x}_{i \cdot} - \bar{\bar{x}})^{2}}^{=S_{A}} \\
&\qquad
+ \overbrace{\sum_{i=1}^{a} \sum_{j = 1}^{r} (x_{ij} - \bar{x}_{i \cdot})^{2}}^{=S_{e}} \\
&\qquad
\cancel{+ 2 \sum_{i=1}^{a} \underbrace{\sum_{j = 1}^{r} (x_{ij} - \bar{x}_{i \cdot})}_{=0} (\bar{x}_{i \cdot} - \bar{\bar{x}})}
\end{aligned}
自由度
- $\phi_{T} = \text{(総データ数)} - 1 = ar - 1$
- $\phi_{A} = \text{($A$の水準数)} - 1 = a - 1$
- $\phi_{e} = \phi_{T} - \text{(要因効果の全ての自由度)} = \phi_{T} - \phi_{A} = ar - a$
自由度$\phi_{T}$は$\sum_{i,j} (x_{ij} - \bar{\bar{x}}) = 0$の情報を差し引いたものだと解釈でき,自由度$\phi_{A}$は$\sum_{i} (\bar{x}_{i \cdot} - \bar{\bar{x}}) = 0$の情報を差し引いたものだと解釈できる(文献[1] Q3).
分散分析表
以上より,分散分析表を作成できる.検定統計量$F$は,自由度$(\phi_{A}, \phi_{e})$の$F$分布に従う.$F$が大きいほど,総変動に対する要因$A$の寄与が,ランダム変動の寄与よりも大きいと解釈できる.
分散分析表 | ||||
---|---|---|---|---|
要因 | 平方和$S$ | 自由度$\phi$ | 平均変動$V$ | $F$ |
$A$ | $S_{A}$ | $\phi_{A} = a - 1$ | $V_{A} = S_{A} / \phi_{A}$ | $F = V_{A} / V_{e}$ |
$e$ | $S_{e}$ | \begin{aligned}\phi_{e} &= \phi_{T} - \phi_{A} \\ &= ar - a \end{aligned} |
$V_{e} = S_{e} / \phi_{e}$ | |
計 | $S_{T}$ | $\phi_{T} = ar - 1$ |
効果の検定
要因$A$が観測値$y$に影響を与えているかを知りたい.これは,検定
- $H_{0}: \alpha_{1} = \alpha_{2} = \cdots = \alpha_{a} = 0$
- $H_{1}: \alpha_{i} \neq 0$となる$i$が存在する
具体的には,有意水準$\alpha$の検定は
- $F > F_{\alpha} (\phi_{A}, \phi_{e}) \Rightarrow H_{0}$を棄却
- $F \leq F_{\alpha} (\phi_{A}, \phi_{e}) \Rightarrow H_{0}$を採択
2元配置
作成中...参考文献
- [1] 入門 実験計画法 (永田靖)
- [2] 入門統計解析 (倉田博史・星野崇宏)
- [3] 日本統計学会公式認定 統計検定1級対応 統計学:とても簡潔にまとまっている.最初にコレを読んで概要を知っておくと良い.迷子にならずに「分散分析表の考え方(作り方)がどのモデルでも同じ」ということが理解できる.