超幾何分布を使用した検定
例題:有意水準5%の片側検定の例 帰無仮説:重症群と軽症群では効果の割合に差がない 対立仮説:軽症群より重症群の方が効果ありの割合が多い(片側検定)
\(P(X=12)\)+\(P(X=13)\)+\(P(X=14)\)+\(P(X=15)\)を求めてみましょう
x <- 12:15
sum(dhyper(x, 15, 14, 18))

p値<0.05なので、「軽症群より重症群の方が効果ありの割合が有意に多い」という結果になります
Fisherの正確検定は超幾何分布を使っているので同じP値が算出されます
cross3 <- matrix(c(12, 6, 3, 8), ncol = 2)#分割表の作成
View(cross3)
fisher.test(cross3, alternative = "greater")$p.value


非復元抽出法(袋から取り出した玉は、袋に戻さない)

超幾何分布は、非復元抽出を前提としています。上述した治療効果の例ではイメージしずらいので赤玉と白玉を使って説明してみます!

ここまで治療Aの効果で説明してきましたが、統計学のテキストでは赤玉と白玉の例がよく紹介されています
赤玉と白玉が混在する袋から無作為に取り出したサンプルの中に含まれる赤玉の数の確率を調べる際に、超幾何分布を用いることができます
超幾何分布は、非復元抽出法で採取されたサンプルの確率分布です(1つずつ袋から取り出し、取り出した玉は袋に戻しません)
N個の玉(赤玉:M個、白玉:N-M個)入っている袋から非復元抽出法で取り出した$k$ 個の中に含まれる赤玉の数を $x$ 個とします
そして、その赤玉 $x$ の数を確率変数 $X$ とみなした場合、$X$ の分布は超幾何分布に従います
cross4 <- matrix(c(
"x", "k-x", "k",
"", "", "",
"M", "N-M", "N"),
ncol = 3)
colnames(cross4) <- c("取り出した玉", "袋に残った玉", "計")
rownames(cross4) <- c("赤玉", "白玉", "計")
#View(cross4)

母集団 $N$ のサイズが無限に大きい場合($N \rightarrow \infty$)
母集団 $N$ のサイズが非常に大きい場合には(大きな袋がパンパンになっている状況)、超幾何分布は二項分布に近似します
一つの要素(例えば赤玉)を抽出しても母集団の構成(パンパンの袋)にほとんど影響を与えず、各抽出が独立しているとみなせるからです
つまり、非復元抽出であっても、母集団のサイズが非常に大きければ、一度抽出された要素が次の抽出に与える影響は無視できるほど小さくなります
従って、母集団のサイズ$N$ が無限大、またはそれに近い場合、非復元抽出の超幾何分布は、各試行が独立しているとみなせる二項分布に近似できます(二項分布は、独立した試行を複数回行い、各試行で成功する確率が一定である場合の確率分布です)
$\dfrac{M}{N}=p$(所謂、成功確率)
期待値:$E(X) = n\dfrac{M}{N} = nP $
分散:$V(X) = n\dfrac{M(N-M)}{N^2}\dfrac{N-n}{N-1} = np(1-np)\dfrac{N-n}{N-1}$
おまけ)復元抽出法

1つずつ袋から取り出し、取り出した玉は袋に戻します(復元抽出法)
復元抽出法の場合、各抽出が独立であるため、超幾何分布ではなく二項分布を使用します
$P(X=x) = \dfrac{_MC_x\times_{N-M}C_{k-x}}{_NC_k}$
期待値:$E(X) = nP $
分散:$V(X) = np(1-np)$
$N \rightarrow \infty$ の場合に、二項分布は中心極限定理により近似的に正規分布に従います
コメント欄 『間違い』や『分かりにくい部分』などのご意見もお寄せください