t分布

t統計量

X¯: 標本の平均(いわゆるデータの平均値)

μ: 母集団の平均値(検定で推定したい値)

σ2: 母集団の分散(この母分散が未知

母分散が既知の場合の統計量

Z=X¯μσ2nN(0,1)

しかし σ2 が不明なので、この統計量は使用することができません

そこで σ2 の代わりに標本不偏分散 s2 を使います

標本不偏分散: s2=1n1Σ(xkX¯)2(k=1,2,,n)

母分散が未知の場合、統計量はこの標本不偏分散を使用したt統計量となります

t統計量の分布は標準正規分布カイ二乗分布の比になっています

証明

t統計量: t=X¯μs2n=X¯μσ2ns2σ2=X¯μσ2n(n1)s2σ2n1

X¯μs2nN(0,1)

(n1)s2σ2χ2(n1) 自由度(n1)のχ2分布

証明終わり

よって、統計量tが従う分布を自由度(n1)のt分布といいます

t=X¯μs2n

studentのt分布という名前でも知られています。この分布を定義したのはWilliam Gossetです。ギネスビール社に勤めていた彼は、会社に内緒でこのt分布に関する論文(1908)を投稿するためにStudentというペンネームを使ったということです。

確率密度関数

上記の証明よりZとWが独立かつZN(0,1),Wχ2(k) を満たす場合

ZWkが従う分布を自由度kのt分布といい、t(k)と標記します

確率密度関数f(x;k)=1kB(k2,12)(1+x2k)k+12

ベータ関数 B(α,β)=01xα1(1x)β1dx

期待値0(k>1)

分散kk2(k>2)

自由度15のt分布でX=3のときの確率を求めてみましょう

例)df=15,x=3

B(152,12)=01x7.51(1x)0.51dx=0.6580778

R
f <- function(x) (x^(7.5-1))*(1-x)^(0.5-1)
(i <- integrate(f, 0, 1))
(t <- (1/(sqrt(15)*0.6580778 ))*((1+(3^2/15))^(-8)))

Rの関数から求めてみましょう

R
dt(x=3, df=15)

t分布のグラフ

R
#グラフ
x <- seq(-5, 5, length=100)
data <- data.frame(
    t1=c(dt(x, 1)),
    t3=c(dt(x, 3)),
    t10=c(dt(x, 10)),
    t50=c(dt(x, 50))
)
 
cols <- c("black", "green", "blue", "red")
ltys <- c(rep(1, 4))
 
plot(
    0, 0, type = "n",
    xlim=c(-5, 5), ylim=c(0, 0.4),
    xlab="", ylab=""
)
 
for (i in 1:ncol(data)) {
    lines(
        x, data[, i], lty=ltys[i], col=cols[i]
    )
}

legend(
        "topright",
        legend=c("k=1", "k=3", "k=10", "k=50"),
        col=cols,
        lty="solid"
)

コメント欄 『間違い』や『分かりにくい部分』などのご意見もお寄せください

タイトルとURLをコピーしました