- 線形単回帰,線形重回帰の概説.
【関連記事】
線形回帰
問題設定
$p$個の変数$x_{1},x_{2},...,x_{p}$(説明変数)によって,目的変数$y$を表現する式(モデル)y = \beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} + \cdots + \beta_{p} x_{p}
\tag{1}
\end{aligned}
このモデルでは,
- 説明変数は$p$個($x_{1},x_{2},...,x_{p}$)
- 未知パラメータは$p+1$個($\beta_{0}, \beta_{1},..., \beta_{p}$)
そして,モデルの$(p+1)$個の未知パラメータ$\beta_{0}, \beta_{1},..., \beta_{p}$は,実測した$n$組のデータ
& (y_{1}, x_{11},x_{12},...,x_{1p}) \\
& (y_{2}, x_{21},x_{22},...,x_{2p}) \\
& \qquad \vdots \\
& (y_{n}, x_{n1},x_{n2},...,x_{np})
\end{aligned}
実測したデータには誤差が乗るため,実測値のモデルとして$(1)$式を使うことは不適切である.そこで,「実測値は,誤差のない場合のモデル$(1)$に,誤差を加えたものである」とするモデル
& y_{i} = \beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{p} x_{ip} + \epsilon_{i} \\
&(i=1,2,...,n)
\tag{2-1}
\end{aligned}
ここで,
- 誤差項$\epsilon_{i}$は確率変数とする.
- $y_{i}$も確率変数である.
式$(2 \text{-} 1)$は,行列・ベクトルを使うとまとめて
& \boldsymbol{y} = X\boldsymbol{\beta} + \boldsymbol{\epsilon} \\
& \boldsymbol{y} =
\begin{pmatrix}
y_{1}\\
\vdots \\
y_{n}
\end{pmatrix},
\boldsymbol{\beta} =
\begin{pmatrix}
\beta_{1}\\
\vdots \\
\beta_{n}
\end{pmatrix},
\boldsymbol{\epsilon} =
\begin{pmatrix}
\epsilon_{1}\\
\vdots \\
\epsilon_{n}
\end{pmatrix} \\
&X
=\left(\begin{array} {c:ccc}
1&x_{11}&\cdots &x_{1p}\\
\vdots &\vdots&\ddots &\vdots \\
1 &x_{n1}&\cdots &x_{np}
\end{array}\right)
\tag{2-2}
\end{aligned}
標準的仮定
次の「標準的仮定」を前提にする(文献[2]).- 独立変数$x_{ij}$は,確率変数でない.
- 誤差項の平均はゼロ:$\mathrm{E}[\epsilon_{i}] = 0$
- 誤差項の分散は等しい:$\mathrm{V}[\epsilon_{i}] = \mathrm{E}[\epsilon_{i}^{2}] = \sigma^{2}$
- 誤差項は無相関:$\mathrm{Cov}(\epsilon_{i}, \epsilon_{j}) = \mathrm{E}[\epsilon_{i} \epsilon_{j}] = 0\,(i\neq j)$
2. はベクトル形式では$\mathrm{E}[\boldsymbol{\epsilon}] = \boldsymbol{0}$となる.3, 4は分散共分散行列を使って$\mathrm{V}[\boldsymbol{\epsilon}] = \mathrm{E}[\boldsymbol{\epsilon} \boldsymbol{\epsilon}^{T}] = \sigma^{2} I_{n}$と表せる($ I_{n}$は単位行列).
「標準的仮定」によって,最小2乗法の推定法の良さが強く保証される(文献[1]).
例えば,$\epsilon_{i}\sim N(0,\sigma^{2})$(平均ゼロの正規分布)であれば,誤差項の仮定が満たされる.これを「ガウス型線形回帰モデル」という.
「標準的仮定」の下,$y_{i}$について次が成り立つことが簡単にわかる.
- $\mathrm{E}[y_{i}] = \beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{p} x_{ip}$
- 分散は等しい:$\mathrm{V}[y_{i}] =\mathrm{V}[\epsilon_{i}] = \sigma^{2}$
- 無相関:$\mathrm{Cov}(y_{i}, y_{j}) = \mathrm{Cov}(\epsilon_{i}, \epsilon_{j}) = 0\,(i\neq j)$
パラメータの推定方法
式$(1)$のパラメータのモデルの$(p+1)$個の未知パラメータ$\beta_{0}, \beta_{1},..., \beta_{p}$を,実測した$n$組のデータ& (y_{1}, x_{11},x_{12},...,x_{1p}) \\
& (y_{2}, x_{21},x_{22},...,x_{2p}) \\
& \qquad \vdots \\
& (y_{n}, x_{n1},x_{n2},...,x_{np})
\end{aligned}
選択する推定方法によって,得られる$\hat{\boldsymbol{\beta}}$は変わり得るものである.推定方法としては例えば,
- 最小2乗法
- 最尤法
用語
以上は,目的変数$y$を説明変数$x_{1},x_{2},...,x_{p}$の線形結合で表現するモデルである.これを「線形回帰モデル」と呼ぶ.特に,説明変数が1つのみ($p=1$)の場合
y = \beta_{0} + \beta_{1} x_{1}
\end{aligned}
式$(2 \text{-} 2)$における,$\boldsymbol{\beta}$の推定量を$\hat{\boldsymbol{\beta}}$とするとき,
- 予測値:$\hat{\boldsymbol{y}} = X \hat{\boldsymbol{\beta}}$
- 残差:$\hat{\boldsymbol{\epsilon}} = \boldsymbol{y} - \hat{\boldsymbol{y}}$
- 残差2乗和:$\mathrm{RSS} =\sum_{i=1}^{n} \hat{\epsilon_{i}}^{2} = \hat{\boldsymbol{\epsilon}}^{T} \hat{\boldsymbol{\epsilon}}$
\boldsymbol{y} = \hat{\boldsymbol{y}} + \hat{\boldsymbol{\epsilon}} = X \hat{\boldsymbol{\beta}} + \hat{\boldsymbol{\epsilon}}
\tag{3}
\end{aligned}
単回帰
説明変数が1つだけ($p=1$)の場合y = \beta_{0} + \beta_{1} x_{1}
\end{aligned}
したがって「重回帰」の議論に含まれるので,(とりあえず)略.
重回帰
最小2乗法
最小2乗法は,実測値と予測値の差$e_{i} = y_{i} - (\beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{p} x_{ip})$の2乗和S(\boldsymbol{\beta})
&= \sum_{i=1}^{n} e_{i}^{2} \\
&=(\boldsymbol{y} - X\boldsymbol{\beta})^{T} (\boldsymbol{y} - X\boldsymbol{\beta})
\end{aligned}
$\hat{\boldsymbol{\beta}}$は
0&=\frac{\partial S}{\partial \boldsymbol{\beta}} \\
&=-2 X^{T} \boldsymbol{y} + 2 X^{T} X \boldsymbol{\beta}
\end{aligned}
\hat{\boldsymbol{\beta}}
&= (X^{T} X)^{-1} X^{T} \boldsymbol{y}
\end{aligned}
このとき,次の性質が成り立つ.
- $\hat{\boldsymbol{\beta}}$は不偏推定量:$\mathrm{E}[\hat{\boldsymbol{\beta}}] = (X^{T} X)^{-1} X^{T} \mathrm{E}[\boldsymbol{y}] = (X^{T} X)^{-1} X^{T} X \boldsymbol{\beta} = \boldsymbol{\beta}$.よって,
- $\mathrm{E}[\hat{\boldsymbol{y}}] $ $= X \mathrm{E}[\hat{\boldsymbol{\beta}}] = X \boldsymbol{\beta} = \mathrm{E}[\boldsymbol{y}]$
- $\mathrm{E}[\hat{\boldsymbol{\epsilon}}] $ $ = \mathrm{E}[\boldsymbol{y}] - \mathrm{E}[\hat{\boldsymbol{y}}] = \boldsymbol{0}$
- $\hat{\boldsymbol{\beta}} = (X^{T} X)^{-1} X^{T} \boldsymbol{y}$から,
- $\hat{\boldsymbol{\beta}} - \mathrm{E}[\hat{\boldsymbol{\beta}}] = \hat{\boldsymbol{\beta}} - \boldsymbol{\beta} = (X^{T} X)^{-1} X^{T} (\boldsymbol{y} - X\boldsymbol{\beta}) = (X^{T} X)^{-1} X^{T} (\boldsymbol{y} - \mathrm{E}[\boldsymbol{y}])$より,$\mathrm{V}[\hat{\boldsymbol{\beta}}] $ $= (X^{T} X)^{-1} X^{T} \mathrm{V}[\hat{\boldsymbol{y}}] X (X^{T} X)^{-1} = \sigma^{2} (X^{T} X)^{-1}$.
- $\hat{\boldsymbol{y}} - \mathrm{E}[\hat{\boldsymbol{y}}] = X(\hat{\boldsymbol{\beta}} - \mathrm{E}[\hat{\boldsymbol{\beta}}])$より,$\mathrm{V}[\hat{\boldsymbol{y}}] $ $= X \mathrm{V}[\hat{\boldsymbol{\beta}}] X^{T} = \sigma^{2}$.
- $\mathrm{V}[\hat{\boldsymbol{\epsilon}}] $ $=$
- 残差:$\hat{\boldsymbol{\epsilon}} = \boldsymbol{y} - \hat{\boldsymbol{y}}$は以下の$(p+1)$個の関係式を満たす(したがって,自由度は$(n-p-1)$)
- $\displaystyle \sum_{i=1}^{n} \hat{\epsilon_{i}} = 0 \Leftrightarrow \frac{1}{n} \sum_{i=1}^{n} y_{i} = \frac{1}{n} \sum_{i=1}^{n} \hat{y}_{i} = \hat{\beta}_{0} + \hat{\beta}_{1} \frac{1}{n} \sum_{i=1}^{n} x_{i1} + \hat{\beta}_{2} \frac{1}{n} \sum_{i=1}^{n} x_{i2} + \cdots + \hat{\beta}_{p} \frac{1}{n} \sum_{i=1}^{n} x_{ip}$($\bar{y} = \sum_{i=1}^{N} \hat{\beta}_{i} \bar{x}_{i} $)
- $\displaystyle X^{T} \hat{\boldsymbol{\epsilon}} = \boldsymbol{0}$
さらに,$\epsilon_{i}\sim N(0,\sigma^{2})$(平均ゼロの正規分布)であれば,次が成り立つ:
- $\hat{\sigma}^{2} = \mathrm{RSS}/(n - p - 1)$は,誤差項$\epsilon_{i}$の分散$\sigma^{2}$の不偏推定量:$\mathrm{E}[\hat{\sigma}^{2}] = \sigma^{2}$
- $t = \dfrac{\hat{\beta_{i}} - \beta_{i}}{\sqrt{\mathrm{V} [\hat{\beta_{i}}]}} \sim t(n-p-1)$(自由度$n-p-1$の$t$分布)
ここで,$\sqrt{\mathrm{V} [\hat{\beta_{i}}]}$は$\hat{\beta_{i}}$の標準誤差と呼ばれる量である.
最尤法
$y_{i}$がある確率分布に従うと仮定して,観測されたデータ$(y_{1}, y_{2},...,y_{n})$が得られる確率を計算する.この確率を最大化する$\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}$を推定量とする方法が「最尤法」である.$\hat{\boldsymbol{\beta}}$を最尤推定量と呼ぶ.作成中...
回帰係数に関する検定
以下では,$\epsilon_{i}\sim N(0,\sigma^{2})$(ガウス型線形回帰モデル)の場合を考える.このとき,
- $\hat{\sigma}^{2} = \mathrm{RSS}/(n - p - 1)$は,誤差項$\epsilon_{i}$の分散$\sigma^{2}$の不偏推定量:$\mathrm{E}[\hat{\sigma}^{2}] = \sigma^{2}$
- $\displaystyle (n - p - 1) \hat{\sigma}^{2} / \sigma^{2} = \mathrm{RSS}/\sigma^{2} = \sum_{i=1}^{n} \biggl(\frac{y_{i} - \hat{y_{i}}}{\sigma}\biggr)^{2} = \sum_{i=1}^{n} \biggl( \frac{\hat{\epsilon_{i}}}{\sqrt{\mathrm{V}[\epsilon_{i}]}} \biggr)^{2} \sim \chi^{2}(n - p - 1)$(自由度$n-p-1$の$\chi^{2}$分布)
- $t = \dfrac{\hat{\beta_{i}} - \beta_{i}}{\sqrt{\mathrm{V} [\hat{\beta_{i}}]}} \sim t(n-p-1)$(自由度$n-p-1$の$t$分布)
ここで,$\sqrt{\mathrm{V} [\hat{\beta_{i}}]}$は$\hat{\beta_{i}}$の標準誤差と呼ばれる量である.
t検定
式$(1)$において,$x_{i}$が$y$に影響を及ぼしているか知りたい.これは,仮説検定
H_{0}: \beta_{i} = 0,\quad H_{1}: \beta_{i} \neq 0
\end{aligned}
帰無仮説$H_{0}$が正しいとすれば,
t = \frac{\hat{\beta_{i}}}{\sqrt{\mathrm{V} [\hat{\beta_{i}}]}} \sim t(n-p-1)
\end{aligned}