F分布

1ページ 2ページ

F分布の性質

FF(n11,n21)F \sim F(n_1 – 1, n_2 – 1)

とする.このとき,

1FF(n21,n11)\frac{1}{F} \sim F(n_2 – 1, n_1 – 1)

また,上側確率 $\alpha$ に対するパーセント点について,

Fα(n11,n21)=1F1α(n21,n11) F_\alpha(n_1 – 1, n_2 – 1) = \frac{1}{F_{1-\alpha}(n_2 – 1, n_1 – 1)}

が成り立つ.

分散比の信頼区間

s12f1α/2s22σ12σ22s12fα/2s22 \frac{s_1^2}{f_{1-\alpha/2} s_2^2} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{s_1^2}{f_{\alpha/2} s_2^2}

ここで $f_\alpha$ は自由度 $(n_1 – 1, n_2 – 1)$ のF分布の上側 $\alpha$ パーセント点を表す.

自由度 $(m, n)$ のF分布の確率密度関数は

f(x;m,n)=mm/2nn/2B(m2,n2)xm21(mx+n)m+n2(x>0) f(x; m, n) = \frac{m^{m/2} n^{n/2}}{B\left(\frac{m}{2}, \frac{n}{2}\right)} \frac{x^{\frac{m}{2} – 1}}{(mx + n)^{\frac{m+n}{2}}} \quad (x > 0)

で与えられる.

ここでベータ関数 $B(\alpha, \beta)$ は

B(α,β)=Γ(α)Γ(β)Γ(α+β) B(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}

で定義される.

したがって,確率密度関数は

f(x;m,n)=Γ(m+n2)mm/2nn/2Γ(m2)Γ(n2)xm21(mx+n)m+n2 f(x; m, n) = \frac{\Gamma\left(\frac{m+n}{2}\right) m^{m/2} n^{n/2}} {\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)} \frac{x^{\frac{m}{2} – 1}}{(mx + n)^{\frac{m+n}{2}}}

とも書ける.

期待値と分散

E[X]=nn2(n>2)E[X] = \frac{n}{n – 2} \quad (n > 2)
Var(X)=2(nn2)2m+n2m(n4)(n>4) \mathrm{Var}(X) = 2\left(\frac{n}{n – 2}\right)^2 \frac{m + n – 2}{m(n – 4)} \quad (n > 4)

自由度を入れ替えた2つのF分布における臨界領域を示す.

R
par(mfrow=c(1,2)) 

curve(
    df(x, 20, 10),
    ylim=c(0, 1), xlim=c(0, 5),
    xlab="", ylab="",
    type="l",
    main="F(20-1, 10-1)"
)

x <- qf(0.025, 20, 10) #0.360533
x1 <- seq(0, x, length = 100)
y <- df(x1, 20, 10)

polygon(
    c(x1, rev(x1)),
    c(rep(0, length(x1)),
    rev(y)), col="pink"
)

curve(
    df(x, 10, 20),
    type = "l",
    ylim = c(0, 1), xlim = c(0, 5),
    xlab="", 
    ylab="",
    main="F(10-1, 20-1)"
)

x <- qf(0.975, 10, 20) #2.773671
x1 <- seq(x, 5, length = 100)
y <- df(x1, 10, 20)

polygon(
    c(x1,rev(x1)),
    c(rep(0,length(x1)), rev(y)),
    col="pink"
)

par(mfrow=c(1,1)) 

左図は $F(19,9)$ の下側 $2.5\%$ 領域,右図は $F(9,19)$ の上側 $2.5\%$ 領域を表している.

これらの領域は逆数の関係にあり,

Fα(n1,n2)=1F1α(n2,n1)F_\alpha(n_1, n_2) = \frac{1}{F_{1-\alpha}(n_2, n_1)}

が成り立つことを視覚的に確認できる.

Rによる検定の実行例
実際のデータに対しては,Rの var.test() 関数を用いることで,分散の等質性の検定を行うことができる.この関数はF検定に基づいて2群の母分散の等質性を検定し,検定統計量,p値,信頼区間などを出力する.

R
x1 <- c(6, 4, 5, 1, 9, 9, 3, 10)
x2 <- c(10, 12, 15, 13, 11, 9)
var.test(x1, x2)
        F test to compare two variances

data:  x1 and x2
F = 2.2309, num df = 7, denom df = 5, p-value = 0.3941
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
  0.3255279 11.7906623
sample estimates:
ratio of variances 
          2.230867

分散比の95%信頼区間

F分布の性質より,

Fα/2(n11,n21)S12/σ12S22/σ22F1α/2(n11,n21) F_{\alpha/2}(n_1-1, n_2-1) \leq \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \leq F_{1-\alpha/2}(n_1-1, n_2-1)

が成り立つ.

これを変形すると,

Fα/2(n11,n21)S12S22σ22σ12F1α/2(n11,n21) F_{\alpha/2}(n_1-1, n_2-1) \leq \frac{S_1^2}{S_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \leq F_{1-\alpha/2}(n_1-1, n_2-1)

さらに整理して,

1F1α/2(n11,n21)S12S22σ12σ221Fα/2(n11,n21)S12S22 \frac{1}{F_{1-\alpha/2}(n_1-1, n_2-1)} \cdot \frac{S_1^2}{S_2^2} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{1}{F_{\alpha/2}(n_1-1, n_2-1)} \cdot \frac{S_1^2}{S_2^2}

すなわち,

S12F1α/2S22σ12σ22S12Fα/2S22 \frac{S_1^2}{F_{1-\alpha/2} \, S_2^2} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{F_{\alpha/2} \, S_2^2}

となる.

Rを使用して95%信頼区間を求める

R
x1 <- c(6, 4, 5, 1, 9, 9, 3, 10)
x2 <- c(10, 12, 15, 13, 11, 9)

#各群の不偏分散
(s1 <- var(x1))
(s2 <- var(x2))
n1 <- 8
n2 <- 6

#上側2.5%点(臨界値)
qf(1 - 0.05/2, n1 - 1, n2 - 1)
#下側2.5%点
qf(0.05/2, n1 - 1, n2 - 1)

lower <- (s1 / s2) / qf(1 - 0.05/2, n1 - 1, n2 - 1)
upper <- (s1 / s2) / qf(0.05/2, n1 - 1, n2 - 1)

#下限
lower
#上限
upper
> x1 <- c(6, 4, 5, 1, 9, 9, 3, 10)
> x2 <- c(10, 12, 15, 13, 11, 9)
> 
> #各群の不偏分散
> (s1 <- var(x1))
[1] 10.41071
> (s2 <- var(x2))
[1] 4.666667
> n1 <- 8
> n2 <- 6
> 
> #上側2.5%点(臨界値)
> qf(1 - 0.05/2, n1 - 1, n2 - 1)
[1] 6.853076
> #下側2.5%点
> qf(0.05/2, n1 - 1, n2 - 1)
[1] 0.1892063
> 
> lower <- (s1 / s2) / qf(1 - 0.05/2, n1 - 1, n2 - 1)
> upper <- (s1 / s2) / qf(0.05/2, n1 - 1, n2 - 1)
> 
> #下限
> lower
[1] 0.3255279
> #上限
> upper
[1] 11.79066

確率関数、期待値、分散

自由度 $(m, n)$ のF分布の確率密度関数は,ベータ関数 $B\left(\frac{m}{2}, \frac{n}{2}\right)$ を用いて

f(x;m,n)=1B(m2,n2)(mn)m2xm21(1+mnx)m+n2(x>0)f(x; m, n) = \frac{1}{B\left(\frac{m}{2}, \frac{n}{2}\right)} \left(\frac{m}{n}\right)^{\frac{m}{2}} x^{\frac{m}{2}-1} \left(1 + \frac{m}{n}x \right)^{-\frac{m+n}{2}} \quad (x > 0)

と表される.

ここでベータ関数とガンマ関数には

B(α,β)=Γ(α)Γ(β)Γ(α+β)B(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}

の関係がある.

したがって,確率密度関数はガンマ関数を用いて

f(x;m,n)=Γ(m+n2)Γ(m2)Γ(n2)(mn)m2xm21(1+mnx)m+n2f(x; m, n) = \frac{\Gamma\left(\frac{m+n}{2}\right)} {\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)} \left(\frac{m}{n}\right)^{\frac{m}{2}} x^{\frac{m}{2}-1} \left(1 + \frac{m}{n}x \right)^{-\frac{m+n}{2}}


本記事の作成にあたり、AIを用いて文章表現および構成の補助を行っています。掲載内容については管理者が確認・修正を行ったうえで公開しており、その内容に関する責任は管理者にあります。

タイトルとURLをコピーしました