F分布

1ページ 2ページ

F分布の導出(カイ二乗分布から)

F分布

F分布を理解するために,まずカイ二乗分布と標本分散の関係を確認する. 正規母集団から標本サイズ $n$ の無作為標本を抽出したとき,不偏分散 $S^2$ に対して

(n1)S2σ2χn12\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}

が成り立つ.

したがって,

S2σ2=1n1χn12\frac{S^2}{\sigma^2} = \frac{1}{n-1}\chi^2_{n-1}

と表すことができる.

すなわち,標本分散と母分散の比は, カイ二乗分布に従う確率変数を自由度で割った形として表される.

ここで,F分布とは,2つの独立なカイ二乗分布に従う確率変数の比から構成される分布である. すなわち,自由度 $k_1, k_2$ の独立な確率変数 $W_1, W_2$ が

W1χk12,W2χk22W_1 \sim \chi^2_{k_1}, \quad W_2 \sim \chi^2_{k_2}

に従うとき,

F=W1/k1W2/k2F = \frac{W_1/k_1}{W_2/k_2}

は自由度 $(k_1, k_2)$ のF分布に従う.

このとき,

F=S12/σ12S22/σ22F = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2}

と書けることから,F分布は分散の比を表す分布として解釈できる. さらに,帰無仮説 $\sigma_1^2 = \sigma_2^2$ のもとでは,

F=S12S22F = \frac{S_1^2}{S_2^2}

と表される.そのため,F分布は分散の比較に用いられ,特に2つの母分散が等しいかどうかの検定(分散比検定)や分散分析において重要な役割を果たす.

定義

$Y_1, Y_2$ を互いに独立なカイ二乗分布に従う確率変数として、それぞれの自由度を $k_1, k_2$ とする。

Y1χ2(k1),Y2χ2(k2)Y_1 \sim \chi^2(k_1), \quad Y_2 \sim \chi^2(k_2)

このとき,

F=Y1/k1Y2/k2F = \frac{Y_1 / k_1}{Y_2 / k_2}

は自由度 $(k_1, k_2)$ のF分布に従う:

FF(k1,k2)F \sim F(k_1, k_2)

正規母集団からF分布の導出

正規母集団からの標本に対して標本分散を考えると,その標準化された量がカイ二乗分布に従うことが知られている.カイ二乗分布は,標準正規分布に従う確率変数の二乗和として定義される.すなわち,独立な標準正規確率変数 $Z_1, \dots, Z_k$ に対して,

i=1kZi2χk2\sum_{i=1}^k Z_i^2 \sim \chi^2_k

が成り立つ.

一方,不偏分散の定義より

S2=1n1i=1n(XiX)2S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i – \bar{X})^2

であるから、

i=1n(XiX)2=(n1)S2\sum_{i=1}^n (X_i – \bar{X})^2 = (n-1)S^2

と書き換えることができる.

したがって,正規母集団からの標本に対しては,

1σ2i=1n(XiX)2=(n1)S2σ2 \frac{1}{\sigma^2}\sum_{i=1}^n (X_i – \bar{X})^2 = \frac{(n-1)S^2}{\sigma^2}

がカイ二乗分布に従うことが知られている.

2つの独立な正規母集団からの標本を考える.

標本1:標本サイズ $n_1$,標本分散 $S_1^2$,母分散 $\sigma_1^2$ 
標本2:標本サイズ $n_2$,標本分散 $S_2^2$,母分散 $\sigma_2^2$

標本1について,次の確率変数を定義する:

W1=i=1n1(X1iX1)2σ12 W_1 = \frac{\sum_{i=1}^{n_1}(X_{1i} – \bar{X}_1)^2}{\sigma_1^2}

不偏分散の関係より,

W1=(n11)S12σ12 W_1 = \frac{(n_1 – 1)S_1^2}{\sigma_1^2}

と書き換えられる.このとき,

W1χn112W_1 \sim \chi^2_{n_1 – 1}

が成り立つ.

同様に標本2について,

W2=i=1n2(X2iX2)2σ22=(n21)S22σ22 W_2 = \frac{\sum_{i=1}^{n_2}(X_{2i} – \bar{X}_2)^2}{\sigma_2^2} = \frac{(n_2 – 1) S_2^2}{\sigma_2^2}

とすると,

W2χn212W_2 \sim \chi^2_{n_2 – 1}

な成り立つ.

また,標本が独立であるとき,$W_1$ と $W_2$ は独立である.

したがって,

W1/(n11)W2/(n21)F(n11,n21) \frac{W_1/(n_1 – 1)}{W_2/(n_2 – 1)} \sim F(n_1 – 1, n_2 – 1)

ここに $W_1, W_2$ を代入すると,

(n11)S12σ12/(n11)(n21)S22σ22/(n21)=S12/σ12S22/σ22=σ22σ12S12S22 \frac{\frac{(n_1 – 1) S_1^2}{\sigma_1^2} / (n_1 – 1)} {\frac{(n_2 – 1) S_2^2}{\sigma_2^2} / (n_2 – 1)} = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} = \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{S_1^2}{S_2^2}

したがって

σ22σ12S12S22F(n11,n21) \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{S_1^2}{S_2^2} \sim F(n_1 – 1, n_2 – 1)

が得られる.

分散の等質性の検定

帰無仮説

H0: σ12=σ22H_0:\ \sigma_1^2 = \sigma_2^2

のもとでは

S12S22F(n11,n21)\frac{S_1^2}{S_2^2} \sim F(n_1 – 1, n_2 – 1)

が成り立つ.

この結果を利用することで,2つの母分散が等しいかどうかを検定することができる.

例題

これまでの結果を用いて,分散の等質性の検定の例題を考える.

例題
血圧を測定した結果,A群($n_1 = 51$)の標本分散は $s_1^2 = 10$(mmHg$^2$),B群($n_2 = 31$)の標本分散は $s_2^2 = 5$(mmHg$^2$)であった.A群とB群の母分散は等しいと言えるかを,有意水準 $2.5\%$ の片側検定で検討せよ.


帰無仮説:母分散は等しい

H0: σ12=σ22H_0:\ \sigma_1^2 = \sigma_2^2


対立仮説:A群の母分散 > B群の母分散

n1=51, s12=10, n2=31, s22=5n_1 = 51,\ s_1^2 = 10,\\\ n_2 = 31,\ s_2^2 = 5

検定統計量

F=s12s22=105=2F = \frac{s_1^2}{s_2^2} = \frac{10}{5} = 2

このとき,帰無仮説のもとで

FF(50, 30)F \sim F(50,\ 30)

が成り立つ.

p値の計算

P(F>2)=0.022P(F > 2) = 0.022

判定

0.022<0.0250.022 < 0.025

したがって,帰無仮説は棄却される.

結論:A群の母分散はB群の母分散よりも有意に大きいといえる.

グラフを用いて検定結果を解説

自由度 $(50, 30)$ のF分布の確率密度関数と,上側確率 $P(F > 2) = 0.022$ を示した図.

R
curve(
    df(x, 50, 30),
    type="l",
    ylim=c(0, 1.3),
    xlim=c(0, 4),
    main="F(51-1, 31-1), P=0.022"
)

x <- qf(
    pf(2, 50, 30, lower.tail=F), 
    50, 30,
    lower.tail = F
)

x1 <- seq(x, 5,length=100)
y <- df(x1, 50, 30)

polygon(
    c(x1, rev(x1)),
    c(rep(0, length(x1)), rev(y)),
    col="green"
)
画像に alt 属性が指定されていません。ファイル名: image-43.png

自由度 $(50, 30)$ のF分布における上側 $2.5\%$ の臨界領域を示した図.

R
curve(
    df(x, 50, 30),
    ylim=c(0,1.3), xlim=c(0,4),
    type="l",
    main="F(51-1, 31-1)"
)

x <- qf(0.025, 50, 30, lower.tail = F)
x1 <- seq(x, 5,length=100)
y <- df(x1, 50, 30)

polygon(
    c(x1, rev(x1)),
    c(rep(0, length(x1)), rev(y)),
    col="pink"
)
R
curve(
    df(x, 50, 30),
    ylim=c(0, 1.3), xlim=c(0, 4),
    type="l",
    main="F(51-1, 31-1),P=0.025(ピンク)"
)

x <- qf(0.025, 50, 30, lower.tail=F)
x1 <- seq(x, 5,length=100)
y <- df(x1, 50, 30)

polygon(
    c(x1, rev(x1)),
    c(rep(0, length(x1)),
    rev(y)),
    col="pink"
)

x <- qf(pf(2, 50, 30, lower.tail=F), 50, 30, lower.tail=F)
x1 <- seq(x, 5,length=100)
y <- df(x1, 50, 30)

polygon(
    c(x1, rev(x1)),
    c(rep(0, length(x1)), rev(y)),
    col="green"
)

F(50,30):有意水準(ピンク)とp値(緑)の比較

自由度 $(50, 30)$ のF分布において,ピンク色の領域は有意水準 $0.025$ に対応する棄却域を表し,緑色の領域は検定統計量 $F = 2$ に対応する上側確率(p値)を表す.このとき,緑色の領域(p値)はピンク色の領域(有意水準)より小さいため,

p<αp < \alpha

が成り立ち,帰無仮説は棄却される.

上側確率が $\alpha$ となる点(上側 $\alpha$ パーセント点)を $F_\alpha(n_1 – 1, n_2 – 1)$ と表す.例えば,$F_{0.025}(50, 30)$ は次のRコードで求めることができる:

R
qf(0.025, 50, 30, lower.tail = F)
> qf(0.025, 50, 30, lower.tail = F)
[1] 1.968061
タイトルとURLをコピーしました