単回帰分析

統計モデル

線形単回帰モデル (linear simple regression model)

単回帰分析は、説明変数 $x_i$​ と誤差項 $e_i$ を用いて目的変数 $y_i$ を説明する分析手法です

$y_i = \beta_0 + \beta_1x_i + e_i \quad e_i \thicksim N(0,\sigma^2)$

このモデルでは、$\beta_0$ は切片、$\beta_1$​ は傾き($x_1$​ の効果)を表します。誤差項 $e_i$ は、通常、「平均 0 と一定の分散を持ち、独立な正規分布に従う $(iid)$」と仮定されます。これらの仮定のもとで、最小二乗法などの手法を用いて $\beta_0​$ と $\beta_1​$ をデータから推定します。この分析により、説明変数が目的変数にどのように影響を与えるかを定量的に評価できます。

$iid$

独立同分布 (independent and identically distributed)

最小二乗法

パラメタ推定には主に最小二乗法と最尤法があります.ここでは最小二乗法によるパラメタ推定を紹介します.統計モデルによって与えられた予測式を以下のように書きます.

$y=b_0+b_1x$

これは見慣れた式だと思います

例題(dat)では上述したように

$y=2.86+0.50x$

となりました

この式の2.86と0.50をどのようにして求めるかというと・・・

$\sum(y-(b_0+b_1x))^2$

を$b_0$、$b_1$で偏微分して=0となるような連立方程式を解きます

$b_1$で微分した場合

$2\sum(b_1x^2-x_iy_i+b_0x_i)=0$

$b_0$で微分した場合

$-2\sum(y-(b_0+b_1x))=0$

これは正規方程式と呼ばれています

\(
\left(
\begin{array}{ccc}

\sum_{i=1}^nx_i^{2*1} & \sum_{i=1}^nx_i^{2*1-1} \\

\sum_{i=1}^nx_i^{2*1-1} & \sum_{i=1}^nx_i^{2*1-2} \\


\end{array}\right)
\left(\begin{array}{cc}
b_1 \\
b_0 \\
\end{array}\right)
=
\left(\begin{array}{cc}
\sum_{i=1}^nx_i^1y_i \\
\sum_{i=1}^nx_i^{1-1}y_i \\
\end{array}\right)
\)

上記の式は以下のような2式になります

$b_1\sum{x_i}^2+b_0\sum{x_i}=\sum{x_iy_i}$

$b_1\sum{x_i}+nb_0=\sum{y_i}$

この2式から$b_0$と$b_1$を求めます

$b_1=\dfrac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$

$b_0=\bar{y}-\bar{x}b_1$

回帰係数と相関係数の関係

相関係数

$r=\dfrac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2\sum(y_i-\bar{y})^2}}$

もっと正確に書くと

$r=\dfrac{\dfrac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}}{\sqrt{\dfrac{\sum(x_i-\bar{x})^2}{n-1}\dfrac{\sum(y_i-\bar{y})^2}{n-1}}}$

となります・・・つまり共分散を標準化した値が相関係数です

xとyが共有する情報の割合を示します

回帰係数

$b_1=\dfrac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$

相関係数と似てますね・・・

以下のように書くこともできます

$b_1=\dfrac{\dfrac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}}{\dfrac{\sum(x_i-\bar{x})^2}{n-1}}=\dfrac{cov(x, y)}{V[x]}$

yが原因、xが結果を想定した回帰係数は以下のようになります

$b_1^,=\dfrac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(y_i-\bar{y})^2}$

決定係数 (相関係数$^2$)

ここで$b_1$と$b_1^,~,$を掛けた値が決定係数になることが分かります

$b_1b_1^,=\dfrac{(\sum(x_i-\bar{x})(y_i-\bar{y}))^2}{\sum(x_i-\bar{x})^2\sum(y_i-\bar{y})^2}$

回帰係数と相関係数の関係

$b_1=\displaystyle r\frac{\sqrt{\sum(y_i-\bar{y})^2}}{\sqrt{\sum(x_i-\bar{x})^2}}$

つまり相関係数と回帰係数の関係は

$r=\sqrt{b_1b_1^,}$

相関係数はxとyのどちらもお互いに影響を与え合っている程度を表す指標です

詳しい数式はいいから、「r=0.4~0.7で強い相関」と覚えなさい・・・というようなこともよく耳にしますが、理解できる人は理解した方がよいと思います。なんでもかんでも”0.5=強”というわけにはいかないときもありますので・・・。統計ソフトがはじき出す結果をちゃんと理解できるようになりましょう!

統計学入門−第5章

コメント欄 『間違い』や『分かりにくい部分』などのご意見もお寄せください

タイトルとURLをコピーしました