正規分布

通常はNormal distributionと呼ばれているのですが、この分布はC.F.ガウス(1777-1855)の誤差関数に由来することからGaussian distributionとも呼ばれています。正規と呼んだのはF.ゴルトンです(統計学入門, 東京大学出版より)。Wikipediaでは、「正規分布はアブラーム・ド・モアブルによって1733年に導入された」とも書かれています。

正規分布

平均 \(\mu\), 分散 \(\sigma^2\) に従う正規分布を \(N\sim(\mu, \, \sigma^2)\) と標記します

確率密度関数:\(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}exp(-\dfrac{(x-\mu)^2}{2\sigma^2}) \qquad (-\infty<x<\infty)\)

期待値:\(\mu\)

分散:\(\sigma^2\)

\(N\sim(5, \, 2^2)\)

#グラフ
x <- seq(-10, 20, length(100))
plot(x, dnorm(x, 5, 4),type="l")

ただ描けばよいときは、こちらが簡単

正規分布の性質

#グラフ
curve(dnorm(x,5,4),-10,20)

線形変換した場合

確立変数 \(X\) が \(N\sim(\mu, \, \sigma^2)\) に従うとき、\(aX+b\) も正規分布に従う

期待値:\(E(aX+b)=a\mu+b\)

分散:\(V(aX+b)=a^2\sigma^2\)

\(aX+b\) は \(N\sim(a\mu+b,\, a^2\sigma^2)\) に従う

標準正規分布

確立変数 \(X\) が \(N\sim(\mu, \, \sigma^2)\) に従うとき、

標準化変数 \(Z=\dfrac{X-\mu}{\sigma}\) は \(N \sim (0, \, 1)\) に従う

これを標準正規分布という 平均 \(0\), 分散 \(1\) に従う正規分布 \(N\sim(0, \, 1)\)

確率密度関数:\(f(Z)=\dfrac{1}{\sqrt{2\pi}}exp(-\dfrac{Z^2}{2})\)

  • \(Z=\dfrac{X-\mu}{\sigma}\) を\(Z\)値\(Z\)スコアといいます
  • この値を使用した検定が\(Z\)検定です

正規分布の再生性

確立変数 \(X, \, Y\) がそれぞれ \(N \sim (\mu_1, \, \sigma_1^2), \, N \sim (\mu_2, \, \sigma_2^2)\) に従う場合

\(X+Y\)は \(N \sim (\mu_1+\mu_2, \, \sigma_1^2 + \sigma_2^2)\)に従う

P値

標準正規分布における上側P値=0.025の例

上側p値が0.025のときの確立変数 \(Z\) の求め方は(\(Z\) 値)

#統計量
qnorm(0.025, lower.tail=F)

有意水準5%による \(Z\) 検定の例

データの誤差平均が標準正規分布に従うと仮定して、平均値が約1.96より大きくなった場合に有意である(平均が0ではない)と判断します

\(f(Z)=\dfrac{1}{\sqrt{2\pi}}exp(-\dfrac{Z^2}{2})\) (下のグラフのY軸の値)

\(N\sim(0, \, 1)\)

#グラフ
xseq <- seq(-5, 5,length=100)
plot(xseq, dnorm(xseq, 0, 1),type="l")

q = qnorm(0.025, lower.tail=F)
p <- seq(q, 5,length=100)
y <- dnorm(p, 0, 1)
polygon(c(p,rev(p)), c(rep(0,length(p)), rev(y)), col="yellow")

黄色の部分が所謂P値になります(この一覧表が統計学の教科書の巻末によく記載されてます)

\(p値=1- \int_{-\infty}^{1.96}\frac{1}{\sqrt{2\pi}}exp(-\frac{Z^2}{2})dx\)

しかし簡単には標準正規分布に従う分布にはなりません

そこで中心極限定理や大数の法則などを理論として、正規分布に近似させた信頼区間などを算出します

95%信頼区間

\(Z=\dfrac{X-\mu}{\sigma}\) より \(\mu= X \pm Z \times \sigma\)

p値いろいろ

\(Z=\pm 1\)の場合:P値はおおよそ\(\dfrac{1}{3}\)

#グラフ
xseq <- seq(-5, 5,length=100)
plot(xseq, dnorm(xseq, 0, 1),type="l")
 
p <- seq(-5, -1, length=100)
y <- dnorm(p, 0, 1)
polygon(c(p,rev(p)), c(rep(0,length(p)), rev(y)), col="green")
p <- seq(1, 5, length=100)
y <- dnorm(p, 0, 1)
polygon(c(p,rev(p)), c(rep(0,length(p)), rev(y)), col="green")
#両側のp値
pnorm(-1)+pnorm(1, lower.tail=F)

\(Z=\pm 2\)の場合:P値はおおよそ\(\dfrac{1}{20}\)

#グラフ
xseq <- seq(-5, 5,length=100)
plot(xseq, dnorm(xseq, 0, 1),type="l")
 
p <- seq(-5, -2, length=100)
y <- dnorm(p, 0, 1)
polygon(c(p,rev(p)), c(rep(0,length(p)), rev(y)), col="skyblue")
p <- seq(2, 5, length=100)
y <- dnorm(p, 0, 1)
polygon(c(p,rev(p)), c(rep(0,length(p)), rev(y)), col="skyblue")
pnorm(-2)+pnorm(2, lower.tail=F)

偏差値

標準正規分布より

\(T=Z \times 10 + 50\)

上の図の平均を50、標準偏差を10としたグラフになるので

#グラフ
xseq <- seq(0, 100, length=100)
plot(xseq, dnorm(xseq, 50, 10),type="l")

標準正規分布と同じ考え方で、1500人のなかで偏差値70点の順位を推定してみましょう

下図の確立を求めてみます

#グラフ
xseq <- seq(0, 100, length=100)
plot(xseq, dnorm(xseq, 50, 10),type="l")
 
p <- seq(70, 100, length=100)
y <- dnorm(p, 50, 10)
polygon(c(p,rev(p)), c(rep(0,length(p)), rev(y)), col="red")

偏差値70以上の確立(赤塗り部分)

#p値
pnorm(70, 50, 10, lower.tail=F)

2倍したら、もちろん

標準正規分布と全く同じことを繰り返してるだけですね・・・

自分より上位には約2.27%いることがわかりましたので、おおよその順位を出してみましょう

1500×0.0227=34

1500人の試験で偏差値70の場合、だいたい30位くらいに位置していることが理解できました

参考文献

統計学入門 - 東京大学出版会
...
改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎

コメント欄 『間違い』や『分かりにくい部分』などのご意見もお寄せください

タイトルとURLをコピーしました