統計学

ベルヌーイ分布・二項分布

2022年2月21日


ここでは、有名な離散分布の第1弾として、

  • ベルヌーイ分布
  • 二項分布
  • ポアソン分布

について話していこうと思います。
 

ベルヌーイ分布

ポアソン分布の確率密度関数は以下です。

【ベルヌーイ分布】
確率変数\(X\)について、
1回の試行で表が出たら1(\(i.e.\) \(X\) = 1)とし、
1回の試行で裏が出たら0(\(i.e.\) \(X\) = 0)としたとき、
確率変数\(X\)は、以下の確率密度関数であるベルヌーイ分布に従う。
\begin{eqnarray}
P(X=k) = p^{k}(1-p)^{1-k}
\end{eqnarray}

ベルヌーイ分布は1回の試行で、正が出る確率のことをいいます。
つまり、1回何かをやった時、起こる場合と起こらない場合のような2つに事象を分けた場合の確率を意味しています。

ベルヌーイ分布の確率関数は以下となります。
$$
P(X=k) = p^{k}(1-p)^{1-k}
$$

コインを投げた時、表が出るとき\(X=1\)、裏が出るとき\(X=0\)とすると、
表が出る時\(k=1\)を代入すると、\(P(X=1) = p\)となり、表の出る確率を表し、
裏が出る時\(k=0\)を代入すると、\(P(X=0) = 1-p\)となり、裏の出る確率を表しています。

 

期待値\(E[X]\)と分散\(V(X)\)の計算

確率変数\(X\)の期待値は、
確率変数のとりうる値は0と1で、それぞれの出る確率は\(1-p\)、\(p\)なので、
$$
E[X] = 0 \cdot (1-p) + 1 \cdot p = p
$$
となります。

確率変数\(X\)の分散は、分散は期待値(平均)からの確率変数の値の距離なので、
\begin{eqnarray}
V(X) &=& (0 - E[X])^{2}(1-P) + (1 - E[X])^{2}p \\
&=& p^{2}(1-p)+(1-p)^{2}p \\
&=& p^{2}-p^{3}+p-2p^{2}+p^{3} \\
&=& p-p^{2} \\
\end{eqnarray}
 

二項分布

ポアソン分布の確率密度関数は以下です。

【二項分布】
確率変数\(X\)について、
\(X= X_{1} + X_{2} + \cdot \cdot \cdot + X_{n}\)
とするとき、確率変数\(X\)は以下の確率密度関数である二項分布に従う。
\begin{eqnarray}
P(X=k)={}_nC_k p^ k(1-p)^{n-k}
\end{eqnarray}

 

二項分布とは、「2つの事柄に対して、\(n\)回試行した時、片方が\(k\)回出る確率のこと」を言います。
 
主な事象例としては、2つの事柄なので、コインの裏表を考えた時、
\(n\)回コインを投げた際に\(k\)回表が出る確率のこと。

二項分布は確率変数はこの1回の試行の表か裏ではなく、
n回の試行した結果表が何回出たかが確率変数になります。
なので、
$$
X=X_{1}+X_{2}+...+X_{n}
$$
この\(X_{1}\)、\(X_{2}\)、...は1回投げて表か裏なのでベルヌーイ分布です。

 
さらには無理やり2つの事柄にして考えると、例えばサイコロ。
サイコロで1,2,3,4が出た場合を表とし、5,6が出た場合を裏とすれば、サイコロも2つの事柄になります。
 
このように世の中のいろんな事象を2つの事柄に置き換えると、この分布を利用してさまざまな計算ができる特徴があります。
 
$$
P(X=k)={}_nC_k p^ k(1-p)^{n-k}
$$
 

この式の導出について、考えてみます。
 


 

上の図を見ながら、説明していきます。

試行回数\(n\)回うち\(k\)回表が出るとします。
でも何回目で表が出るかわかりません。
ただ、\(k\)回表が出るということは、\(n-k\)回は裏が出ると分かります。
 

\(①\) まず出る順番(上の図)の組み合わせは、\({}_nC_k\)通り。
\(②\) そして、表が出る確率は\(p\)で同時に表が今\(k\)回出るので、確率の積により\(p^{k}\)。
\(③\) そして、裏が出る確率は\(1-p\)で同時に裏が今\(n-k\)回出るので、確率の積により\((1-p)^{n-k}\)。
 

これらは同時に起きるので、全てを掛け算して、
\(P(X=k)={}_nC_k p^ k(1-p)^{n-k}\)
となります。

 

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

#二項分布乱数
n =100
p =0.4
data_rb= np.random.binomial(n, p, size=1000)
print(data_rb)

bins = np.arange(20, 60)-0.5
plt.hist(data_rb, bins, density=True)

#二項分布理論値
from scipy.stats import binom
#x: data_rbの範囲...integer
k = range(min(data_rb),max(data_rb))
binom_pmf = binom.pmf(k, n, p)

plt.plot(k, binom_pmf)

 
二項分布のモーメント母関数
期待値と分散
 
確率関数の形を見ると、
二項分布とベルヌーイ分布の形は似ています。
それもそのはず、両方とも表と裏のような相反する事象(2つの事象が出るかどうか)と、二項分布は試行回数が複数回、ベルヌーイ分布は1回のみ。
なので、二項分布の関数にn=1を入れると、ベルヌーイ分布と同じ確率関数になります。
 

-統計学
-

© 2023 Yosshi Labo. Powered by AFFINGER5