二項分布とベルヌーイ分布

このサイトでは離散型の関数を確率関数、連続型の関数を確率密度関数と使い分けています

ベルヌーイ試行

2種類の結果を生じる実験(例:成功 or 失敗)あるいは観察(例:陽性 or 陰性)を行った場合、一定の確率で2種類のどちらかが結果となります

このように2種類のどちらかが結果となる確率が一定で、同じ条件かつ独立に行う試行のことをベルヌーイ試行と言います

確率関数

結果が1となる確率 \(π\) のベルヌーイ試行を \(n\) 回実施して、結果が1となる回数を \(k\) とします

結果=1の回数が \(k\) 回となる確率を以下の関数で求めることができます

確率関数 \(P(X=k)={}_n C_kπ^k(1-π)^{n-k}\)

期待値 \(nπ\)

分散 \(nπ(1-π)\)

この確率の分布を二項分布、また確率変数\(X\)は二項分布に従うと言います

リハビリテーションでコインの表ウラは考えにくいので、以下のよなような例で説明します(僕が考えた架空のものですので、運動の定義などはカットしてます)

例題

地域Aの「週に1回以上の頻度で運動する人の割合」を50%とします. この地域からお互いに全く関係のない3名(Aさん、Bさん、Cさん)をランダムに選んで、「週に1回以上簡単な運動をしていますか?」というアンケートの結果を実施したとしましょう. 答えはもちろんYes=1、No=0のどちらかになります. 結果から確率を求めてみましょう・・・?
  • Yesと答える確率は\(π=\frac{1}{2}\)
  • 3名中Yesと答える人数 \(k\) のパターンは、0人、1人、2人、3人の4通りになります
  • 考えられるパターンは以下の8通りになります

X=kAさんBさんCさん確率
0NoNoNo1/8
1Yes
No
No
No
Yes
No
No
No
Yes
3/8
2Yes
No
Yes
Yes
Yes
No
No
Yes
Yes
3/8
3YesYesYes1/8

Yesの人数を確率変数\(X\)、試行回数3回、Yesとなる確率\(π=\frac{1}{2}\)とした場合、「\(X\)の確率は2項分布\(B(3 , 0.5)\)に従う」と表現します

これをグラフにすると以下のようになります

t <- 0:3
p <- dbinom(x = t, size = 3, prob = 0.5) #それぞれの確率を算出
barplot(p ~ t,  pch = 16, xlab = "", ylab = "")

それぞれの確率はpの中に入っています

表に示した確率と同じ値になります

Rで確率を求めるときは以下のように書きます

  • P(X≧1)=0.375+0.375+0.125=0.875を求めたい場合(q = 0に注意)
pbinom(q = 0, size = 3, prob = 0.5, lower.tail = FALSE) 

lower.tail = FALSE はX≦0を含めないという意味になり、\(P(X≧1)\) を求めることとなります

  • P(X≦1)=0.5を求めたい場合
pbinom(q = 1, size = 3, prob = 0.5, lower.tail = TRUE)

lower.tail = TRUE はTRUEなのでX≦1を含めるという意味になり、\(P(X≦1)\) を求めることになります

地域の確率が30%で、50人に調査した場合は、・・・手計算でやるのは大変なのでRで算出してみましょう

t <- 0:50
p <- dbinom(x = t, size = 50, prob = 0.3) #それぞれの確率を算出
barplot(p ~ t,  pch = 16, xlab = "", ylab = "")

確率はいかのようになります

確率変数15のときの確率が最も高い確率を示しています

また、ほとんど正規分布になることも理解できます

このことは二項分布の期待値が \(nπ\) なので、中心極限定理より説明できます

母集団の分布がどのような分布であっても、無作為抽出した標本における標本平均の分布は、標本の大きさnが大きいときに正規分布に収束する

https://y2pt.com/memo/2022/12/30/%e4%b8%ad%e5%bf%83%e6%a5%b5%e9%99%90%e5%ae%9a%e7%90%86/

確率0.3, k=2, 3, 5, 10, 50, 100の二項分布

つまり\(B(2, 0.3)\), \(B(3, 0.3)\), \(B(5, 0.3)\), \(B(10, 0.3)\), \(B(50, 0.3)\), \(B(100, 0.3)\)

fun <- function(k){
t <- 0:k
p <- dbinom(x = t, size = k, prob = 0.3) #それぞれの確率を算出
barplot(p ~ t,  pch = 16, xlab = "", ylab = "")
}

par(mfrow = c(2,3))
for(k in c(2,3,5,10,50,100)){fun(k)} 
par(mfrow = c(1,1))

ベルヌーイ分布

確率\(π\)で2種類の結果(0または1)の値をとる独立した\(1\)回の試行で得られる結果の分布をベルヌーイ分布という

期待値 \(π\)

分散 \(π(1-π)\)

もちろん二項分布の\(n=1\)と同じ結果なので、\(B(1,π)\)と表される場合もあります

コメント欄 『間違い』や『分かりにくい部分』などのご意見もお寄せください

タイトルとURLをコピーしました