統計学

ベルヌーイ分布・二項分布・ポアソン分布

2022年2月21日


ここでは、有名な離散分布の第1弾として、

  • ベルヌーイ分布
  • 二項分布
  • ポアソン分布

について話していこうと思います。
 

ベルヌーイ分布

ベルヌーイ分布は1回の試行で、正が出る確率のことをいいます。
つまり、1回何かをやった時、起こる場合と起こらない場合のような2つに事象を分けた場合の確率を意味しています。

ベルヌーイ分布の確率関数は以下となります。
$$
P(X=k) = p^{k}(1-p)^{1-k}
$$

コインを投げた時、表が出るとき\(X=1\)、裏が出るとき\(X=0\)とすると、
表が出る時\(k=1\)を代入すると、\(P(X=1) = p\)となり、表の出る確率を表し、
裏が出る時\(k=0\)を代入すると、\(P(X=0) = 1-p\)となり、裏の出る確率を表しています。

 

期待値\(E[X]\)と分散\(V(X)\)の計算

確率変数\(X\)の期待値は、
確率変数のとりうる値は0と1で、それぞれの出る確率は\(1-p\)、\(p\)なので、
$$
E[X] = 0*(1-p) + 1*p = p
$$
となります。

確率変数\(X\)の分散は、分散は期待値(平均)からの確率変数の値の距離なので、
\begin{eqnarray}
V(X) &=& (0 - E[X])^{2}(1-P) + (1 - E[X])^{2}p \\
&=& p^{2}(1-p)+(1-p)^{2}p \\
&=& p^{2}-p^{3}+p-2p^{2}+p^{3} \\
&=& p-p^{2} \\
\end{eqnarray}
 

二項分布

二項分布とは、「2つの事柄に対して、\(n\)回試行した時、片方が\(k\)回出る確率のこと」を言います。
 
主な事象例としては、2つの事柄なので、コインの裏表を考えた時、
\(n\)回コインを投げた際に\(k\)回表が出る確率のこと。

二項分布は確率変数はこの1回の試行の表か裏ではなく、
n回の試行した結果表が何回出たかが確率変数になります。
なので、
$$
X=X_{1}+X_{2}+...+X_{n}
$$
この\(X_{1}\)、\(X_{2}\)、...は1回投げて表か裏なのでベルヌーイ分布です。

 
さらには無理やり2つの事柄にして考えると、例えばサイコロ。
サイコロで1,2,3,4が出た場合を表とし、5,6が出た場合を裏とすれば、サイコロも2つの事柄になります。
 
このように世の中のいろんな事象を2つの事柄に置き換えると、この分布を利用してさまざまな計算ができる特徴があります。
 
$$
P(X=k)={}_nC_k p^ k(1-p)^{n-k}
$$
 

この式の導出について、考えてみます。
 


 

上の図を見ながら、説明していきます。

\(n\)回うち\(k\)回表が出るとします。
でもどこで\(k\)回表が出るかわかりません。
まず出る順番(上の図)の組み合わせは、\({}_nC_k\)通り。
そして、表が出る確率は\(p\)で同時に表が今\(k\)回出るので、\(p^{k}\)。
そして、裏が出る確率は\(1-p\)で同時に裏が今\(n-k\)回出るので、\((1-p)^{n-k}\)。
これらは同時に起きるので、全てを掛け算して、
\(P(X=k)={}_nC_k p^ k(1-p)^{n-k}\)
となります。

 

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

#二項分布乱数
n =100
p =0.4
data_rb= np.random.binomial(n, p, size=1000)
print(data_rb)

bins = np.arange(20, 60)-0.5
plt.hist(data_rb, bins, density=True)

#二項分布理論値
from scipy.stats import binom
#x: data_rbの範囲...integer
k = range(min(data_rb),max(data_rb))
binom_pmf = binom.pmf(k, n, p)

plt.plot(k, binom_pmf)

 
二項分布のモーメント母関数
期待値と分散
 
確率関数の形を見ると、
二項分布とベルヌーイ分布の形は似ています。
それもそのはず、両方とも表と裏のような相反する事象(2つの事象が出るかどうか)と、二項分布は試行回数が複数回、ベルヌーイ分布は1回のみ。
なので、二項分布の関数にn=1を入れると、ベルヌーイ分布と同じ確率関数になります。
 

ポアソン分布

ポアソン分布は滅多に起きない場合の確率密度関数です。
よく題材に上がるのが交通事故の発生確率だったり、さらには隕石が落ちてくる確率とか。
ん?
起きる、起きないを取り扱うということはまさに相反する事象で、ん?二項分布やベルヌーイ分布もそんなようだったような。
そうです!そのため、ポアソン分布は二項分布とはかなり関係のある確率分布となります。
さらに滅多に起きないということは、起きる確率は0にほぼ等しい。起きる確率をpとしたら、pは0にほぼ等しいということになります。
 
確率変数としては、交通事故が起きる回数、隕石が落ちる回数なので、
二項分布と同じように、試行回数を考えるものです。
 
ということなので、二項分布の\(p\)を限りなく0に近いことを仮定することで、
ポアソン分布の確率関数を導出することができます。
滅多に起きないのであれば、試行回数もとにかく多く回数こなさないと1回ですら起きないので、その試行回数を\(n\)とした時、\(n\rightarrow∞\)とします。
そして、起きる確率をpとした時、\(p\rightarrow0\)とします。

\(k\)は二項分布の確率関数をそのまま利用して導出しているので、
二項分布の\(k\)と同じ意味で、試行回数\(n\)回のうち、事象が起きた回数を\(k\)としています。

そこで、ある定数パラメータ\(λ\)を置いて、以下の式を考える。
$$
p=λ/n
$$

上記のように式を置くと、
\(n\rightarrow∞\)をとると、\(λ\)は定数なので、右辺は0に近づき、左辺も0に近づくので、仮定の\(p\rightarrow0\)を満たします。
さらに、\(p\rightarrow0\)とすると、右辺も0に近づかないといけないので、\(λ\)が定数なので、\(n\)は\(n\rightarrow∞\)を満たさないといけません。
なので、元々の仮定を満たす式を作りました。

この式を二項分布に代入することで、ポアソン分布を導出することができます。

 

ポアソン分布は二項分布から導出できるので証明してみたいと思います。
\begin{eqnarray}
P(X=k)={}_nC_k p^ k(1-p)^{n-k}
\end{eqnarray}
ここで、\(p=\frac{\lambda}{n}\)と置く。\(\lambda\)はパラメータで定数とします。
そうすると、\(n\rightarrow∞\)とすると、\(\frac{\lambda}{n} \rightarrow 0\)により、\(p\rightarrow0\)になります。
\(p=\frac{\lambda}{n}\)を代入して、

\begin{eqnarray}
P(X=k) &=& {}_nC_k (\frac{\lambda}{n} )^ k(1-\frac{\lambda}{n})^{n-k} \\
&=& \frac{n(n-1)(n-2)・・・(n-k-1)}{k}(\frac{\lambda}{n})^{k}(1-\frac{\lambda}{n})^{n-k} \\
\end{eqnarray}
ここで、分子の各項からnを抜きます。\(k\)個あるので、\(n・n・・・n = n^{k}\)となり、
\begin{eqnarray}
P(X=k) &=& \frac{n^{k}・1・(1-\frac{1}{n})・(1-\frac{2}{n})・・・(1-\frac{k-1}{n})}{k}(\frac{\lambda}{n})^{k}(1-\frac{\lambda}{n})^{n-k} \\
&=& \frac{ (1-\frac{1}{n})*(1-\frac{2}{n})*・・・*(1-\frac{k-1}{n}) }{k}{\lambda}^{k}(1-\frac{\lambda}{n})^{n-k} \\
&=& \frac{\lambda^{k}}{k}*(1-\frac{1}{n})(1-\frac{2}{n})*・・・*(1-\frac{k-1}{n})(1-\frac{\lambda}{n})^{n}(1-\frac{1}{n})^{-k} \\
\end{eqnarray}
 

ここで\(n\rightarrow∞\)をとると、
\( 1-\frac{1}{n} \rightarrow1\)、\( 1-\frac{2}{n} \rightarrow1\)、\( 1-\frac{k-1}{n} \rightarrow1\)、\( (1-\frac{1}{n})^{-k} \rightarrow1\)で、
\( (1-\frac{\lambda}{n})^{n} \)については、\( (1-\frac{\lambda}{n})^{n} \rightarrow e^{-\lambda} \)になるので、
 
\begin{eqnarray}
P(X=k) &=& \frac{\lambda^{k}}{k}*1*1*・・・*1*e^{-\lambda}*1 \\
&=& \frac{\lambda^{k}e^{-\lambda}}{k}
\end{eqnarray}

 
ポアソン分布は発生確率がめちゃくちゃ低い場合を想定するので、イメージとしては二項分布での正の確率\(p\)が、
\(p\rightarrow0\)と限りなく0に近い場合を考えるとイメージできれば、簡単です。
 
ポアソン分布も、二項分布と同じで、2つの事柄を考えます。
ただ二項分布と違うところは、滅多に起きない事柄を扱う点です。
滅多に起きないということは、確率が0にほぼ等しいということです。よくある例としては隕石に当たる確率レベルの滅多に起きない事柄です。
 
ポアソン分布のモーメント母関数
期待値、分散

-統計学
-

© 2022 Yosshi Blog Powered by AFFINGER5