確率変数の期待値と分散

Contents

1 確率変数の期待値と分散
2 複数の確率変数

確率変数の期待値と分散

確率変数$X$があった時、離散を$P(X)$、連続を$f(X)$とすると、
期待値は
\begin{eqnarray}
離散：E[X] &=& \sum_{k=1}^{∞} x_{k}P(x_{k}) \\
連続：E[X] &=& \int_{-∞}^{∞} xf(x)dx
\end{eqnarray}

分散は
\begin{eqnarray}
離散：V(X) &=& \sum_{k=1}^{∞} (x_{k} - E[X])^{2}P(x_{k}) \\
分散：V(X) &=& \int_{-∞}^{∞} (x-E[x])^{2}f(x)dx
\end{eqnarray}

ここで以下3つのポイントがあります。

【分散】分散の定義の書き換え
【分散】期待値からの距離
【期待値】期待値と平均について

【分散】分散の定義の書き換え

上記のように、期待値と分散では式が似ています。
違う部分としては期待値は$x_{k}$、分散は$(x_{k}-E[X])^{2}$の部分で、それ以外は同じです。
なので分散は以下のように定義されることもあります。
$$
V[X] = E[(X-E[X])^{2}]
$$
期待値の$E[X]$の$X$は、$x_{k}$の部分を表しており、
その部分が分散では$(X-E[X])^{2}$となっていることから、上記のように書き直すことができます。

つまり、分散は確率変数$(X-E[X])^{2}$の期待値ということもできます。

さらにこのことから分散公式という重要な公式が導かれます。
E[X]は定数なので、外に出せることを前提として、
\begin{eqnarray}
V(X) &=& E[(X-E(X))^{2}] \\
&=& E[(X^{2}-2XE[X]+E[X]^2] \\
&=& E[X^{2}]-2E[XE[X]]+E[E[X]^{2}] \\
&=& E[X^{2}]-2E[X]E[X]+E[X]^{2} \\
&=& E[X^{2}]-E[X]^{2}
\end{eqnarray}

【分散】期待値からの距離

分散は確率変数のばらつき度合いを表す指標です。
そのばらつきは、どこを基準でばらつきを測っているのかは、
期待値を基準にしてどのくらいデータにばらつきがあるのかを測っています。(個々のデータなのか、確率変数に対してなのか。これは期待値と平均の違いでもあったりする。平均は個々のデータだけど、期待値は確率変数で1つ1つのデータではない)

そのため、普通に$x-E[X]$で計算してもいいのではと思いますが、
そうしてしまうとマイナスがあり得てしまいます。
例えば以下の図のようになると、平均よりも左側の確率変数では$x-E[X]$はマイナスになります。
そうなると、ばらつきの合算が下手するとマイナスになる可能性も出てきますし、そうなるとばらつきがマイナスという意味のわからない概念になります。
そのため、$x-E[X]$はダメです。

であれば絶対値を取った、$|x-E[X]|$はどうなの？と思いそうですが、
このことは最小二乗法にも関わってきますが、
確かにこの指定方法もありはありですが、$(x-E[X])^{2}$とすることで、常に正ではあり距離>0はなっていて、
さらに展開すると2次関数になり、必ず下に凸の2次関数になるので、距離の最小値を求めるようなことが可能になります。
そのため、分散では$(x-E[X])^{2}$で定義しています。

【期待値】期待値と平均について

期待値と同じ意味でよく用いられる言葉として「平均」があります。
平均って計算方法は以下では？と思います。
10回サイコロを降ったときの出目を$x_{1}$から$x_{10}$としたとき、
$$
平均 = \frac{x_{1}+x_{2}+x_{3}+x_{4}+x_{5}+x_{6}+x_{7}+x_{8}+x_{9}+x_{10}}{10}
$$
です。

例えば、サイコロを10回投げた時の平均を求めてみます。
今、1,6,2,2,2,3,5,4,5,1が出たとします。
平均は
\begin{eqnarray}
平均 &=& \frac{1+6+2+2+2+3+5+4+5+1}{10} \\
&=& 1*\frac{2}{10} + 2*\frac{3}{10} + 3*\frac{1}{10} + 4*\frac{1}{10} + 5*\frac{2}{10} + 6*\frac{1}{10} \\
\end{eqnarray}
と表現できます。

そして期待値を求めてみます。
それぞれの出目が出る確率は全て1/6です。
そのため
$$
期待値 = 1*\frac{1}{6} + 2*\frac{1}{6} + 3*\frac{1}{6} + 4*\frac{1}{6} + 5*\frac{1}{6} + 6*\frac{1}{6} \\
$$

平均と期待値の式を見る限り、
確率変数×確率の式になっていて、ただその確率が違います。
平均は現在出ている全事象分での確率で、期待値は試行回数をとてつもなく多くやっていったとき、大数の法則によって収束する確率の値を用いて計算します。
イカサマのないサイコロであれば、最初は出目が1に偏ってたとしても、100000回とかやれば収束していき、大体各出目が出る確率が1/6になっていきます。
その値を用いて出すのが期待値で、
期待値は将来とりうる平均と考えることができると思います。

複数の確率変数

確率変数があるということは、必ず確率密度関数が存在します。
確率変数の取りうる値に対して確率が定まる以上、確率密度関数は存在します。

確率変数が定まるととりうる値が定まります。
そうなるとその取りうる値からヒストグラムを生成して、おおよその確率密度関数を求めます。
求め方としては最尤法を用いて、仮定した確率密度関数の

XとYが独立の時、以下が成立します。
直感的にはXとYは別の確率密度関数から発生した確率変数だとすると、Xが出る確率がYのある値を出す際に影響を及ぼすということはないので、このような式が成立します。
$$
E[X+Y] = E[X]+E[Y]
$$

分散は
$$
V(X+Y) = V(X)+V(Y)
$$

「XとYが確率変数なのであれば、当然X+Yも確率変数になる。」
確率変数の式で表されたものは、またそれも確率変数になる。
当たり前だよね？とあまり本では触れられてない。
確かに当たり前の話で、わざわざ言わなくてもわかるよね。という感じ。
これって当たり前だけど、意外と大事な概念だと思います。

確率変数が定まると、確率密度関数、期待値、分散が決まる
確率変数と確率変数を足したものも確率変数になる
そうなると、また確率密度関数が作られる
これは標本平均の分布などで使われる