確率関数と確率密度関数と分布関数

2022年2月23日

分布関数とは、確率変数の小さいところからの累積の関数になります。

確率関数と確率密度関数は同じ意味で、
ある確率変数が出る確率を示しています。

例えば、サイコロを1回投げたとします。
特に1が出やすいなどイカサマのない純粋なサイコロとすると、普通にどの目も確率1/6になります。
統計学の言葉で言うと、
確率変数が1は、1/6で出るということです。

この1/6が確率関数や確率密度関数です。
1/6は値ですが、関数なので厳密には確率変数の値がxとなる確率をxの関数で示したものが確率密度関数となります。

分布関数とは。
イメージ以下のようにするとなんとなくイメージが浮かんでくるのでは？
確率の線を足していくと、確率が足されていくイメージです。

例えば、
サイコロが1/6で出ます。これをグラフ化すると以下のようになります。
分布関数は確率変数の小さい値から積み上げていった確率の累積と話しました。

ということは、
例えばサイコロの目が1,2をたすと、2/6
1,2,3を足すと、3/6
になります。

離散分布は
サーメーション。シグマで表記し、

連続分布は、インテグラルで表記します。
インテグラルは、

でこの線を足していくので、イメージ
足していくとこの線が足されていくということはまさに面積になります。

今回のことから、
分布関数が分かれば、分布関数と確率密度関数や確率関数は積分の関係なので、
逆にいれば微分で算出することもできるという関係になります。

分布関数は確率を足していったこと、
そして確率は確率密度なので、
つまり分布関数は確率密度関数を足していったことということになります。
分布関数を$F(x)$、確率密度関数を$f(x)$とした時、
$$
F(x) = f(x_{1}) + f(x_{2}) + ... + f(x_{n})　・・・①
$$
となります。

確率変数が離散値の場合はサーメーション、連続値の場合はインテグラルで表現されます。
サーメーションは1+2+...+nのように離散値を足していく場合に用いられる数学の記法で、
インテグラルは1,2,..のように飛び飛びではなく、連続する値を足していく場合に用いられる数学の記法です。

そのためそれぞれ記法に則って再度書くと、
離散分布は、
\begin{eqnarray}
F(x) &=& f(x_{1}) + f(x_{2}) + ... + f(x_{n}) \\
&=& \sum_{k=1}^{∞} f(x_{k}) \\
\end{eqnarray}

連続分布は、
\begin{eqnarray}
F(x) &=& f(x_{1}) + f(x_{2}) + ... + f(x_{n}) \\
&=& \int_{-∞}^{∞} f(x)dx \\
\end{eqnarray}

さらにこのことから、
積分と微分の関係から、
分布関数$F(x)$は確率密度関数$f(x)$の積分でもとまるため、
確率密度関数$f(x)$は分布関数$F(x)$の微分で求めることができます。
\begin{eqnarray}
f(x) &=& \frac{d}{dx}F(x) \\
&=& F'(x) \\
\end{eqnarray}

なので、何か問題とかで分布関数がわかっている時、確率密度関数を求める必要がある場合は、
微分をすることで簡単に求めることができます。

微分ができるのは連続する値の場合であり、
そのため離散値をとるサーメーションに対して微分を行うことができません。
なので、この関係は確率変数が連続値となる確率密度関数に対してのみ行うことができます。

確率密度関数を出すことで、
期待値や分散を求めることが可能になったりするので、
そういう意味でも常に確率密度関数を出すことは頭に置いておくのはいいかもですね。

2次元の場合の分布関数を考えてみます。
当然2次元になっても分布関数は確率密度関数の積み上げ、そして確率密度関数は確率を表します。

$$
F(x) = \int_{-∞}^{∞}\int_{-∞}^{∞} f(x,y)dxdy
$$

-統計学
-統計学

: 切断正規分布・トービットモデル

正規分布に従うけど、ある値以降のもののみをピックアップして、そのデータだけを用いて新しい分布を構築したい場合があるとする。これを切断正規分布と言います。例えばですが、人の資産の分布を考えると、プ ...

: カテゴリ分類系の話

カテゴリの分類系の手法としては、以下のようなものがある。 1. 判別分析 2. SVM(サポートベクターマシン) 3. クラスター分析(k-means法) 1.判別分析判別分析はカテゴリに分けたもの ...

: わかりやすい多重共線性

統計学の回帰分析などでたまに見る「多重共線性」。どう言ったものかについてここでは説明していこうと思います。多重共線性とは多重共線性（マルチコ：multi-colinearlity（ ...

: わかりやすい分散分析

分散分析とは、3つ以上のグループ間に有意差があるかないかを分析するための手法になります。普通の検定では帰無仮説を基準にして対立仮説がこのくらい離れると有意性であったり、2つの群の差を見て有意性あるか ...

PREV: わかりやすいベータ分布
NEXT: 確率変数の期待値と分散