超幾何分布

Fisherの正確検定で利用されている確率分布です

ここで使用する例は僕が考えた架空ものですので、施設AもZ法も実存しません

Fisherの正確検定で紹介している以下の分割表(クロス表)を利用します

★ Z法を受けた29名

効果あり効果なし
重度群12315
軽度群6814
合計181129

上記の例を一般化しましょう

対象者数:施設AでZ法を受けた患者\(N\)人(重度群\(M\) 人、軽度群\(N-M\) 人)

結果:Z法の効果あり \(n\) 人、重度群の効果あり \(k\) 人

効果あり効果なし
重度群\(k\)\(M - k\)\(M\)
軽度群\(n - k\)\(N-M-(n - k)\)\(N-M\)
\(n\)\(N-n\)\(N\)

確率関数

これで周辺和 \((M, N-M, n, N-n)\) がすべて固定されます

\(n\)人にZ法の効果があったとすると、4つのセルのなかの1つを決めることで他のセルが全部決まります = 自由度は1

つまり重度群の効果ありの人数 \(k\) が分かっている場合に、他のセルは全て決まります
そこで、重症群の効果ありの人数が \(k\) 人となる確率を組み合わせ \((C=combination)\) から求めます

確率関数: $P(X=k)=\dfrac{MCk\times_{N-M}C_{n-k}}{_NC_n}$

期待値:$n\dfrac{M}{N}$

分散:$n\dfrac{M(N-M)}{N^2}\dfrac{N-n}{N-1}$

Z法を受けた29名の結果は以下のようになります

$P(X=12)=\dfrac{_{15}C_{12}\times_{14}C_{18 -12}}{_{15+14}C_{18}}=0.03949341$

Rでは次のように書きます

choose(15, 12)*choose(14, 6)/choose(29, 18)

もっと簡単に書くと、このようになります

\(P(X=k)=dhyper(k, M, N-M, n)\)

dhyper(12, 15, 14, 18)

この\(P(X)\)が従う分布を超幾何分布といいます

ここの例では、\(k\) の範囲は\(0~15\)となります
どのような分布になるか見てみましょう

t <- 0:15
p <- dhyper(t, 15, 14, 18) 
barplot(p ~ t,  pch = 16, xlab = "", ylab = "")

\(k\) が12、13、14、15のときの確率を足せば片側検定のP値となります

k が12、13、14、15になる確率が小さい値になれば、偶然に起こったことと言えなくなります。なので、効果の割合に差があると言えるのです。

例題:有意水準5%の片側検定の例

帰無仮説:重症群と軽症群では効果の割合に差がない

対立仮説:軽症群より重症群の方が効果ありの割合が多い(片側検定)

\(P(X=12)\)+\(P(X=13)\)+\(P(X=14)\)+\(P(X=15)\)を求めてみましょう

t <- 12:15
sum(dhyper(t, 15, 14, 18))

p値<0.05なので、「軽症群より重症群の方が効果ありの割合が有意に多い」という結果になります

Fisherの正確検定は超幾何分布を使っているので同じP値が算出されます

(mat <- matrix(c(12,6,3,8),2,2))#分割表の作成
fisher.test(mat, alternative = "greater")$p.value

非復元抽出(袋から取り出した玉は、袋に戻さない方法)

ここでは施設AのZ法の効果で説明してきましたが、統計のテキストには以下のような例がよく書かれてます

ある袋のなかに赤玉 \(a\) 個と白玉 \(b\) 個入っていたとします

その袋から \(n\) 個取り出したときの赤玉の数を \(x\) 個とします

袋から取り出した玉は、袋に戻しません

このような抽出方法を非復元抽出と言います

$$ n ≦ a + b $$

取り出した数袋のなかの残り総数
赤玉の数\(x\)\(a - x\)\(a\)
白玉の数\(n - x\)\(b - (n - x)\)\(b\)
\(n\)\(a + b - n\)\(a + b\)

非復元抽出が超幾何分布の前提になっているのですが、施設Aの例ではイメージしずらいので赤玉と白玉を使って説明しました

超幾何分布と二項分布と正規分布・・・?

基本的に母比率を推定する場合には二項分布が利用されます

ただし今回のように母集団のサイズが小さい場合の非復元抽出によるサンプリングでは、\(k\) は超幾何分布に従います

またサンプルサイズが大きい場合には二項分布は中心極限定理により近似的に正規分布に従います

ダメ出し 間違い、分かりにくい部分などのご意見をお待ちします

タイトルとURLをコピーしました