線形回帰

POINT

  • 線形単回帰,線形重回帰の概説.

性質を全て調べるのはなかなか大変です.

【関連記事】

線形回帰

問題設定

$p$個の変数$x_{1},x_{2},...,x_{p}$(説明変数)によって,目的変数$y$を表現する式(モデル)
\begin{aligned}
y = \beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} + \cdots + \beta_{p} x_{p}
\tag{1}
\end{aligned}
を考える.つまり,「誤差(ノイズ)のない理想的な状況で得た実測値$(y, x_{1},x_{2},...,x_{p})$の間には式$(1)$が成り立つ」と仮定して議論を進める,ということである.

このモデルでは,

  • 説明変数は$p$個($x_{1},x_{2},...,x_{p}$)
  • 未知パラメータは$p+1$個($\beta_{0}, \beta_{1},..., \beta_{p}$)
である.

そして,モデルの$(p+1)$個の未知パラメータ$\beta_{0}, \beta_{1},..., \beta_{p}$は,実測した$n$組のデータ

\begin{aligned}
& (y_{1}, x_{11},x_{12},...,x_{1p}) \\
& (y_{2}, x_{21},x_{22},...,x_{2p}) \\
& \qquad \vdots \\
& (y_{n}, x_{n1},x_{n2},...,x_{np})
\end{aligned}
から推定すべきものである.

実測したデータには誤差が乗るため,実測値のモデルとして$(1)$式を使うことは不適切である.そこで,「実測値は,誤差のない場合のモデル$(1)$に,誤差を加えたものである」とするモデル

\begin{aligned}
& y_{i} = \beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{p} x_{ip} + \epsilon_{i} \\
&(i=1,2,...,n)
\tag{2-1}
\end{aligned}
を考える($n$組の実測データそれぞれに対して,1つずつモデルをつくっている).

ここで,

  • 誤差項$\epsilon_{i}$は確率変数とする.
したがって,式$(2 \text{-} 1)$から
  • $y_{i}$も確率変数である.


式$(2 \text{-} 1)$は,行列・ベクトルを使うとまとめて
\begin{aligned}
& \boldsymbol{y} = X\boldsymbol{\beta} + \boldsymbol{\epsilon} \\
& \boldsymbol{y} =
\begin{pmatrix}
y_{1}\\
\vdots \\
y_{n}
\end{pmatrix},
\boldsymbol{\beta} =
\begin{pmatrix}
\beta_{1}\\
\vdots \\
\beta_{n}
\end{pmatrix},
\boldsymbol{\epsilon} =
\begin{pmatrix}
\epsilon_{1}\\
\vdots \\
\epsilon_{n}
\end{pmatrix} \\
&X
=\left(\begin{array} {c:ccc}
1&x_{11}&\cdots &x_{1p}\\
\vdots &\vdots&\ddots &\vdots \\
1 &x_{n1}&\cdots &x_{np}
\end{array}\right)
\tag{2-2}
\end{aligned}
と表せる.

標準的仮定

次の「標準的仮定」を前提にする(文献[2]).
標準的仮定
  1. 独立変数$x_{ij}$は,確率変数でない.
  2. 誤差項の平均はゼロ:$\mathrm{E}[\epsilon_{i}] = 0$
  3. 誤差項の分散は等しい:$\mathrm{V}[\epsilon_{i}] = \mathrm{E}[\epsilon_{i}^{2}] = \sigma^{2}$
  4. 誤差項は無相関:$\mathrm{Cov}(\epsilon_{i}, \epsilon_{j}) = \mathrm{E}[\epsilon_{i} \epsilon_{j}] = 0\,(i\neq j)$
【補足】
2. はベクトル形式では$\mathrm{E}[\boldsymbol{\epsilon}] = \boldsymbol{0}$となる.3, 4は分散共分散行列を使って$\mathrm{V}[\boldsymbol{\epsilon}] = \mathrm{E}[\boldsymbol{\epsilon} \boldsymbol{\epsilon}^{T}] = \sigma^{2} I_{n}$と表せる($ I_{n}$は単位行列).

「標準的仮定」によって,最小2乗法の推定法の良さが強く保証される(文献[1]).

例えば,$\epsilon_{i}\sim N(0,\sigma^{2})$(平均ゼロの正規分布)であれば,誤差項の仮定が満たされる.これを「ガウス型線形回帰モデル」という.


「標準的仮定」の下,$y_{i}$について次が成り立つことが簡単にわかる.

「標準的仮定」の下での$y_{i}$の性質
  1. $\mathrm{E}[y_{i}] = \beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{p} x_{ip}$
  2. 分散は等しい:$\mathrm{V}[y_{i}] =\mathrm{V}[\epsilon_{i}] = \sigma^{2}$
  3. 無相関:$\mathrm{Cov}(y_{i}, y_{j}) = \mathrm{Cov}(\epsilon_{i}, \epsilon_{j}) = 0\,(i\neq j)$
上と同様に,1. は$\mathrm{E}[\boldsymbol{y}] = X\boldsymbol{\beta}$,2と3は$\mathrm{V}[\boldsymbol{y}] = \mathrm{E}[(\boldsymbol{y} - \mathrm{E}[\boldsymbol{y}]) (\boldsymbol{y} - \mathrm{E}[\boldsymbol{y}]) ^{T}] = \mathrm{E}[\boldsymbol{\epsilon} \boldsymbol{\epsilon}^{T}] = \mathrm{V}[\boldsymbol{\epsilon}] = \sigma^{2} I_{n}$と表せる.

パラメータの推定方法

式$(1)$のパラメータのモデルの$(p+1)$個の未知パラメータ$\beta_{0}, \beta_{1},..., \beta_{p}$を,実測した$n$組のデータ
\begin{aligned}
& (y_{1}, x_{11},x_{12},...,x_{1p}) \\
& (y_{2}, x_{21},x_{22},...,x_{2p}) \\
& \qquad \vdots \\
& (y_{n}, x_{n1},x_{n2},...,x_{np})
\end{aligned}
から推定する方法を考える.$\boldsymbol{\beta}$の推定量を$\hat{\boldsymbol{\beta}}$と記す.一般に,$\hat{\boldsymbol{\beta}}$は確率変数$\boldsymbol{y}$の関数となるから,$\hat{\boldsymbol{\beta}}$も確率変数である($\boldsymbol{\beta}$は確率変数ではなく定数).

選択する推定方法によって,得られる$\hat{\boldsymbol{\beta}}$は変わり得るものである.推定方法としては例えば,

  • 最小2乗法
  • 最尤法
がある(文献[1]).

用語

以上は,目的変数$y$を説明変数$x_{1},x_{2},...,x_{p}$の線形結合で表現するモデルである.これを「線形回帰モデル」と呼ぶ.

特に,説明変数が1つのみ($p=1$)の場合

\begin{aligned}
y = \beta_{0} + \beta_{1} x_{1}
\end{aligned}
を「線形単回帰モデル」と呼び,説明変数が2つ以上($p \geq 2$)の場合を「線形重回帰モデル」と呼ぶ.

式$(2 \text{-} 2)$における,$\boldsymbol{\beta}$の推定量を$\hat{\boldsymbol{\beta}}$とするとき,

  • 予測値:$\hat{\boldsymbol{y}} = X \hat{\boldsymbol{\beta}}$
  • 残差:$\hat{\boldsymbol{\epsilon}} = \boldsymbol{y} - \hat{\boldsymbol{y}}$
  • 残差2乗和:$\mathrm{RSS} =\sum_{i=1}^{n} \hat{\epsilon_{i}}^{2} = \hat{\boldsymbol{\epsilon}}^{T} \hat{\boldsymbol{\epsilon}}$
を定義する.予測値は,「標準的仮定」によって誤差なく測定(用意)できるとした$x_{ij}$を用いて,式$(1)$から目的変数を予測したものである.残差は$\boldsymbol{e} $で表されることが多いが,
\begin{aligned}
\boldsymbol{y} = \hat{\boldsymbol{y}} + \hat{\boldsymbol{\epsilon}} = X \hat{\boldsymbol{\beta}} + \hat{\boldsymbol{\epsilon}}
\tag{3}
\end{aligned}
と式$(2 \text{-} 2)$を比較すると,残差$\hat{\boldsymbol{\epsilon}} $が誤差項$\boldsymbol{\epsilon}$の推定量とみなせることから,この記法を採用した(文献[2]).

単回帰

説明変数が1つだけ($p=1$)の場合
\begin{aligned}
y = \beta_{0} + \beta_{1} x_{1}
\end{aligned}
を「線形単回帰モデル」と呼ぶ.

したがって「重回帰」の議論に含まれるので,(とりあえず)略.

重回帰

最小2乗法

最小2乗法は,実測値と予測値の差$e_{i} = y_{i} - (\beta_{0} + \beta_{1} x_{i1} + \beta_{2} x_{i2} + \cdots + \beta_{p} x_{ip})$の2乗和
\begin{aligned}
S(\boldsymbol{\beta})
&= \sum_{i=1}^{n} e_{i}^{2} \\
&=(\boldsymbol{y} - X\boldsymbol{\beta})^{T} (\boldsymbol{y} - X\boldsymbol{\beta})
\end{aligned}
を最小にする$\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}$を推定量とする方法である.$\hat{\boldsymbol{\beta}}$を最小2乗推定量と呼ぶ.

$\hat{\boldsymbol{\beta}}$は

\begin{aligned}
0&=\frac{\partial S}{\partial \boldsymbol{\beta}} \\
&=-2 X^{T} \boldsymbol{y} + 2 X^{T} X \boldsymbol{\beta}
\end{aligned}
より,$\det (X^{T} X)\neq 0$なら
\begin{aligned}
\hat{\boldsymbol{\beta}}
&= (X^{T} X)^{-1} X^{T} \boldsymbol{y}
\end{aligned}
と求められる.

このとき,次の性質が成り立つ.

  • $\hat{\boldsymbol{\beta}}$は不偏推定量:$\mathrm{E}[\hat{\boldsymbol{\beta}}] = (X^{T} X)^{-1} X^{T} \mathrm{E}[\boldsymbol{y}] = (X^{T} X)^{-1} X^{T} X \boldsymbol{\beta} = \boldsymbol{\beta}$.よって,
    • $\mathrm{E}[\hat{\boldsymbol{y}}] $ $= X \mathrm{E}[\hat{\boldsymbol{\beta}}] = X \boldsymbol{\beta} = \mathrm{E}[\boldsymbol{y}]$
    • $\mathrm{E}[\hat{\boldsymbol{\epsilon}}] $ $ = \mathrm{E}[\boldsymbol{y}] - \mathrm{E}[\hat{\boldsymbol{y}}] = \boldsymbol{0}$
  • $\hat{\boldsymbol{\beta}} = (X^{T} X)^{-1} X^{T} \boldsymbol{y}$から,
    • $\hat{\boldsymbol{\beta}} - \mathrm{E}[\hat{\boldsymbol{\beta}}] = \hat{\boldsymbol{\beta}} - \boldsymbol{\beta} = (X^{T} X)^{-1} X^{T} (\boldsymbol{y} - X\boldsymbol{\beta}) = (X^{T} X)^{-1} X^{T} (\boldsymbol{y} - \mathrm{E}[\boldsymbol{y}])$より,$\mathrm{V}[\hat{\boldsymbol{\beta}}] $ $= (X^{T} X)^{-1} X^{T} \mathrm{V}[\hat{\boldsymbol{y}}] X (X^{T} X)^{-1} = \sigma^{2} (X^{T} X)^{-1}$.
    • $\hat{\boldsymbol{y}} - \mathrm{E}[\hat{\boldsymbol{y}}] = X(\hat{\boldsymbol{\beta}} - \mathrm{E}[\hat{\boldsymbol{\beta}}])$より,$\mathrm{V}[\hat{\boldsymbol{y}}] $ $= X \mathrm{V}[\hat{\boldsymbol{\beta}}] X^{T} = \sigma^{2}$.
    • $\mathrm{V}[\hat{\boldsymbol{\epsilon}}] $ $=$
  • 残差:$\hat{\boldsymbol{\epsilon}} = \boldsymbol{y} - \hat{\boldsymbol{y}}$は以下の$(p+1)$個の関係式を満たす(したがって,自由度は$(n-p-1)$
    • $\displaystyle \sum_{i=1}^{n} \hat{\epsilon_{i}} = 0 \Leftrightarrow \frac{1}{n} \sum_{i=1}^{n} y_{i} = \frac{1}{n} \sum_{i=1}^{n} \hat{y}_{i} = \hat{\beta}_{0} + \hat{\beta}_{1} \frac{1}{n} \sum_{i=1}^{n} x_{i1} + \hat{\beta}_{2} \frac{1}{n} \sum_{i=1}^{n} x_{i2} + \cdots + \hat{\beta}_{p} \frac{1}{n} \sum_{i=1}^{n} x_{ip}$($\bar{y} = \sum_{i=1}^{N} \hat{\beta}_{i} \bar{x}_{i} $
    • $\displaystyle X^{T} \hat{\boldsymbol{\epsilon}} = \boldsymbol{0}$

さらに,$\epsilon_{i}\sim N(0,\sigma^{2})$(平均ゼロの正規分布)であれば,次が成り立つ:

  • $\hat{\sigma}^{2} = \mathrm{RSS}/(n - p - 1)$は,誤差項$\epsilon_{i}$の分散$\sigma^{2}$の不偏推定量:$\mathrm{E}[\hat{\sigma}^{2}] = \sigma^{2}$
  • $t = \dfrac{\hat{\beta_{i}} - \beta_{i}}{\sqrt{\mathrm{V} [\hat{\beta_{i}}]}} \sim t(n-p-1)$(自由度$n-p-1$の$t$分布)

ここで,$\sqrt{\mathrm{V} [\hat{\beta_{i}}]}$は$\hat{\beta_{i}}$の標準誤差と呼ばれる量である.


最尤法

$y_{i}$がある確率分布に従うと仮定して,観測されたデータ$(y_{1}, y_{2},...,y_{n})$が得られる確率を計算する.この確率を最大化する$\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}$を推定量とする方法が「最尤法」である.$\hat{\boldsymbol{\beta}}$を最尤推定量と呼ぶ.


作成中...

回帰係数に関する検定

以下では,$\epsilon_{i}\sim N(0,\sigma^{2})$(ガウス型線形回帰モデル)の場合を考える.

このとき,

  • $\hat{\sigma}^{2} = \mathrm{RSS}/(n - p - 1)$は,誤差項$\epsilon_{i}$の分散$\sigma^{2}$の不偏推定量:$\mathrm{E}[\hat{\sigma}^{2}] = \sigma^{2}$
  • $\displaystyle (n - p - 1) \hat{\sigma}^{2} / \sigma^{2} = \mathrm{RSS}/\sigma^{2} = \sum_{i=1}^{n} \biggl(\frac{y_{i} - \hat{y_{i}}}{\sigma}\biggr)^{2} = \sum_{i=1}^{n} \biggl( \frac{\hat{\epsilon_{i}}}{\sqrt{\mathrm{V}[\epsilon_{i}]}} \biggr)^{2} \sim \chi^{2}(n - p - 1)$(自由度$n-p-1$の$\chi^{2}$分布)
や,
  • $t = \dfrac{\hat{\beta_{i}} - \beta_{i}}{\sqrt{\mathrm{V} [\hat{\beta_{i}}]}} \sim t(n-p-1)$(自由度$n-p-1$の$t$分布)
が成り立つ.

ここで,$\sqrt{\mathrm{V} [\hat{\beta_{i}}]}$は$\hat{\beta_{i}}$の標準誤差と呼ばれる量である.


t検定

式$(1)$において,$x_{i}$が$y$に影響を及ぼしているか知りたい.

これは,仮説検定

\begin{aligned}
H_{0}: \beta_{i} = 0,\quad H_{1}: \beta_{i} \neq 0
\end{aligned}
で調べられる.

帰無仮説$H_{0}$が正しいとすれば,

\begin{aligned}
t = \frac{\hat{\beta_{i}}}{\sqrt{\mathrm{V} [\hat{\beta_{i}}]}} \sim t(n-p-1)
\end{aligned}
であるから,「$t$分布のパーセント点」がわかればよい.

F検定

分散分析表

作成中...

決定係数

決定係数

作成中...

自由度調整済み決定係数

作成中...

相関係数

重相関係数

作成中...

偏相関係数

作成中...

参考文献