相関係数(correlation coefficient)

Pearsonの積率相関係数

相関係数とは、観測されたデータに基づいて、2つの変数 $X$、$Y$ がどの程度同じ方向に増減しているかを数値で表した指標である(他の要因は考慮しないため、因果関係を示すものではない)。主に線形な関係の強さと向きを捉えるために用いられる。

観測データ$(x_1, y_1), \dots, (x_n, y_n)$ に対して、Pearson の相関係数 $r_{XY}$​ は、次式で定義される。なお、共分散や分散の定義に含まれる $n$ や $n−1$ は、分子・分母で相殺されるため、この式には明示的には現れない。

rXY=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2 r_{XY} = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}

$x_i$​:$i$ 番目の人(または試行)の$X$の値
$y_i$​:$i$ 番目の人(または試行)の$Y$の値
$\bar{x}$:$X$の平均値
$\bar{y}$:$Y$の平均値

相関係数 $r_{XY}$ は、「$X$と$Y$が、それぞれの平均から同じ方向へ、どれくらい一緒に動いているか」を $-1$〜$+1$ の範囲で表したものである。

分子は、$X$ と $Y$ が平均から同じ方向にずれているか、逆方向にずれているかを表す量の合計であり、共分散に比例する量である。$X$ と $Y$ がともに平均より大きい、またはともに小さい場合には正に、どちらか一方が大きく他方が小さい場合には負になる。一方、分母は $X$ と $Y$ のばらつきの大きさを表しており、それぞれの標準偏差に比例する量である。このように、相関係数は共分散を各変数の「ばらつき」で標準化したものであり、変数の単位の影響を除いて関係の強さだけを取り出した指標である。

以上をまとめると、相関係数は共分散を標準偏差で正規化した量として、次のように表される。

rXY=Cov(X,Y)Var(X)Var(Y)r_{XY}=\dfrac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}

分子だけだと、身長(cm)と体重(kg)、テストの点数と時間(秒)のように、変数の単位やばらつきの大きさの影響を受けて値が変わってしまうという問題がある。そこで、共分散をそれぞれの変数のばらつき(標準偏差)で割ることで正規化を行う。これにより単位が打ち消され、変数の尺度に依存しない尺度が得られる。その結果、相関係数は −1〜+1 の範囲に収まり、変数間の関係の強さと向きだけを表す指標となる。

リハビリテーション分野の例

$X$:1日あたりの理学療法時間(分)
$Y$:FIMの改善量(FIM利得)
40名の患者を対象に、理学療法時間と FIM利得の相関係数を求めたところ、$r=0.45$ であった。これは、理学療法時間が長い患者ほど、FIM が改善しやすい傾向があることを示している。ただし、この相関係数には、期間、年齢、初期 FIM、重症度などの他の要因を考慮していないため、それらの影響が混ざったままの結果である点に注意が必要である。したがって、この結果だけから「理学療法時間が長いから FIM が改善した」といった因果関係を結論づけることはできない。

サンプルを使用してRで算出

R
X <- c(
39, 29, 36, 40, 37, 37, 34, 33, 31, 37,
32, 38, 31, 43, 34, 35, 39, 36, 37, 34,
31, 33, 39, 42, 40, 30, 41, 34, 38, 34,
46, 32, 38, 29, 36, 36, 39, 28, 35, 41
)

Y <- c(
10, -1, 10, 12, 11, 16, 10, 7, 16, 12,
8, 3, 5, 13, 2, 8, 11, 7, 8, 11,
10, 6, 6, 9, 8, 1, 12, 15, 10, -2,
14, 3, 13, 6, 7, -5, 9, 4, -2, 16
)

Pearsonの積率相関係数と散布図

R
cor(X, Y)
plot(X, Y)
> cor(X, Y)
[1] 0.4446581

偏相関係数(partial correlation coefficient)

偏相関係数とは、変数 $Z$ の影響を取り除いた上で、$X$ と $Y$ の線形関係を評価する指標である。すなわち、$Z$ を制御したときの $X$ と $Y$ の関連の強さを表す。偏相関係数 $r_{XY \cdot Z}$ は次式で定義される。

rXYZ=rXYrXZrYZ(1rXZ2)(1rYZ2)r_{XY\cdot Z} = \frac{r_{XY} – r_{XZ} r_{YZ}} {\sqrt{(1 – r_{XZ}^2)(1 – r_{YZ}^2)}}

この式は、$X$ と $Y$ の単純相関 $r_{XY}$ から、両者が共通して $Z$ と関連している成分を除去した、$Z$ の影響を取り除いた上での $X$ と $Y$ の線形関係を表している。

各記号の意味
$r_{XY}$:$X$ と $Y$ の相関
$r_{XZ}$:$X$ と $Z$ の相関
$r_{YZ}$:$Y$ と $Z$ の相関
いずれも、第3の変数を考慮しない単純相関(Pearsonの相関係数)である。

分子の意味 $r_{XY}-r_{XZ}r_{YZ}$
$X$ と $Y$ の相関 $r_{XY}$ のうち,両者が共通して $Z$ と関連していることによって生じた部分を除いた残りを表している。すなわち,$Z$ の影響を取り除いた後に残る $X$ と $Y$ の線形関係を表すものである。

分母の意味 $\sqrt{(1 – r_{XZ}^2)(1 – r_{YZ}^2)}$
$1 – r_{XZ}^2$ は,$Z$ によって説明されない $X$ の分散の割合を表し,$1 – r_{YZ}^2$ は,$Z$ によって説明されない $Y$ の分散の割合を表す。ここで,$r^2$ は決定係数に相当するため,$1 – r^2$ は残差分散の割合と解釈できる。したがって分母は,$Z$ の影響を除いた後の $X$ と $Y$ のばらつきの大きさに基づいてスケールを調整する正規化項である。この正規化により,偏相関係数 $r_{XY \cdot Z}$ は通常の相関係数と同様に $-1 \le r_{XY \cdot Z} \le 1 $ を満たす。

リハビリテーション研究における偏相関係数の例

例:理学療法時間とFIM利得
$X$:理学療法時間
$Y$:FIM利得
$Z$:年齢

理学療法時間が長いほどFIM利得が高くなる、すなわち正の相関 $ r_{XY} > 0 $ がみられると仮定する(見かけ上の相関)。しかし、高齢になると理学療法時間は短くなり、FIM利得も小さくなると仮定すると、$X$ と $Y$ の正の相関は、両者が共通して年齢 $Z$ の影響を受けていることによって生じている可能性がある。この場合、年齢の影響を取り除いて偏相関係数を求めると、$ r_{XY \cdot Z} \approx 0 $ となることも考えられる。

例)サンプルに変数Zを追加

R
Z <- c(
76, 93, 78, 80, 83, 80, 77, 85, 88, 80,
83, 80, 85, 74, 92, 77, 73, 78, 81, 88,
85, 81, 73, 76, 79, 93, 71, 86, 77, 88,
74, 81, 75, 85, 87, 90, 84, 89, 86, 79
)
R
library(ppcor)
res <- pcor.test(X, Y, Z)
cat(
  sprintf(
"estimate   = %.3f
p.value    = %.5f
statistic  = %.2f
n          = %d
gp         = %d
Method     = %s\n",
  res$estimate,
  res$p.value,
  res$statistic,
  res$n,
  res$gp,
  res$Method
))
estimate   = 0.082
p.value    = 0.61885
statistic  = 0.50
n          = 40
gp         = 1
Method     = pearson

$Z$ を制御した偏相関分析の結果、$X$ と $Y$ の間には有意な正の相関が認められた(偏相関係数 $r=0.08, p=0.62 $)。

理学療法時間と FIM 利得の単純相関は正($r=0.44$)であったが,年齢を調整した偏相関係数は $r=0.08$ と小さく,有意な関連は認められなかった。 このことから,観察された理学療法時間と FIM 利得の相関は,年齢という共通要因によって生じた見かけの関係を示している可能性がある。すなわち,年齢を揃えて比較すると,理学療法時間と FIM 利得の間の直接的な線形関係は弱いと考えられる。 したがって,理学療法時間と FIM 利得の関連の少なくとも一部は,$Z$(年齢)によって説明される可能性が高い。

偏相関係数では,交絡による見かけの相関を分子において除去し,分母で条件を揃えた後のばらつきを用いて正規化する。これにより,$Z$ を説明変数としてそれぞれ回帰したときに得られる残差同士の相関係数として $r_{XY \cdot Z}$ が定義される。これは,年齢が理学療法時間と FIM 利得の両方に影響を与える交絡因子として働いていることを示唆する結果である。

重要! 偏相関係数を回帰モデルで理解する

偏相関係数は、理論的には誤差項同士の相関であり、実際の解析ではその推定値として残差同士の相関を用いて計算される。

$Z$ の影響を取り除く(調整した)回帰式は次のように表される。

X=αX+βXZ+εXX = \alpha_X + \beta_X Z + \varepsilon_X
Y=αY+βYZ+εYY = \alpha_Y + \beta_Y Z + \varepsilon_Y

$\varepsilon_X$​:$X$ のうち $Z$ では説明できない部分(残差)
$\varepsilon_Y$​:$Y$ のうち $Z$ では説明できない部分(残差)

偏相関係数は理論的にはこれらの誤差項同士の相関であり,次のように表される:

rXYZ=rεX,εYr_{XY\cdot Z} = r_{\varepsilon_X,\varepsilon_Y}

ただし実際のデータ解析では誤差項を直接観測することはできないため,回帰によって得られた残差を用い,その相関として偏相関係数を計算する。

したがって,偏相関係数とは「変数 $Z$ を一定にしたときに,なお残る $X$ と $Y$ の線形関係」を数値化したものである。

Rで確認

R
res_X <- resid(lm(X ~ Z))
res_Y <- resid(lm(Y ~ Z))
cor(res_X, res_Y)
> cor(res_X, res_Y)
[1] 0.08220084

Spearmanの順位相関係数

正規分布を仮定する必要がない
外れ値の影響を受けにくい
順序尺度でも使用可能

Spearman の順位相関係数とは,「順位として見たときに,2つの変数がどの程度一緒に増減しているか」を表す指標である。各変数を順位に変換した後,その順位に対して Pearson の積率相関係数を計算したものである。すなわち,順位として捉えたときの単調な関連の強さを評価する指標である。

$R_{X,i}​$:$X$ の $i$ 番目の観測値 $x_i$​ を,すべての観測値の中で小さい順に並べたときの順位
$R_{Y,i}​$:$Y$ の $i$ 番目の観測値 $y_i$​ を,すべての観測値の中で小さい順に並べたときの順位
$d_i​=R_{X,i}−R_{Y,i}$​ は順位差

同順位(tie)が存在しない場合

rs=16i=1ndi2n(n21)r_s = 1 – \frac{6\sum_{i=1}^{n} d_i^2} {n(n^2-1)}

同順位(tie)が存在する場合は、順位の Pearson 相関として計算する(一般形を用いる)。

rs=i=1n(RX,iRX)(RY,iRY)i=1n(RX,iRX)2i=1n(RY,iRY)2r_s = \frac{ \sum_{i=1}^{n} \left(R_{X,i}-\bar R_X\right) \left(R_{Y,i}-\bar R_Y\right) } { \sqrt{ \sum_{i=1}^{n}(R_{X,i}-\bar R_X)^2 \sum_{i=1}^{n}(R_{Y,i}-\bar R_Y)^2 } }

$\bar R_X$ は、$X$の順位の平均
$\bar R_Y$ は、$Y$の順位の平均

点二列相関係数(point-biserial correlation)

連続変数 × 二値変数
数式的には、二群間平均差を相関として表したもの。実質的にはt検定との等価表現ですが、「関連の強さ」を示したいときに使います。

タイトルとURLをコピーしました