わかりやすいさまざまな推定量

今あるデータから本来の平均値であったり分散値を求めたいというのは統計やデータ分析をするものとしては当然の考えだと思います。
よくある例としては、
アンケートデータ。
不特定多数でランダムに選びアンケートを10000回答集めました。このアンケート結果から本来の回答を導き出したいです。
でも10000回答なので日本人の1/10000なので、全然正確ではないです。
でも今取れたデータからどうやってこの真の平均や回答を出せばいいか。

それを考えるために、統計量という概念を考える必要があります。
統計量を用いて出した値のことを推定値と言います。
母平均を出すために、ある統計量を定めて、その統計量から母平均を推定しようなどと考えることです。

ただ簡単に統計量を導くことは難しいわけです。
ここではそんな推定量の概念について説明をしていこうと思います。

正規分布ではパラメータが平均や分散、
二項分布ではパラメータはp(確率)、、
などさまざまありますが、こういった平均や分散、確率を。

Contents

1 推定量の点推定について
2 分散の推定量
3 一様最小分散不偏推定量
4 不偏推定量がない場合

推定量の点推定について

点推定を行うにあたっては以下のような期待値による計算を考えます。

\(E[T(x)] = \theta\)を満たす不偏推定量\(T(X)\)が、他の任意の\(\theta\)の不偏推定量\(S\)に対して、
\begin{eqnarray}
E[ (T(X_{1}, X_{2}, ...,X_{n}) - \theta )^{2}]・・・①
\end{eqnarray}

上記の定義は至ってシンプルです。
統計値を計算したら、求めたい母集団のパラメータの値との差を見ているということになります。至って自然ですね。
どんな母集団のパラメータを推定するにあたっても、統計量を定義してその値との差分を見て、その差分が小さくなっていけばより推定できているということになります。

例えば、正規分布の平均である母平均を\(\mu\)と定めた時、統計量との差分は以下のように表せるということになります。

\begin{eqnarray}
E[ (T(X_{1}, X_{2}, ...,X_{n}) - \mu)^{2} ]
\end{eqnarray}

そして、不偏推定量とは、どういう時か、統計量によって該当の母集団のパラメータの推定ができている時、値が一致している時、
すなわち、上記の①でいう、統計量と母集団のパラメータの差分が0になっている時ということになります。

\begin{eqnarray}
E[T(X_{1}, X_{2}, ...,X_{n}) - \theta] )^{2} &=& 0 \\
E[T(X_{1}, X_{2}, ...,X_{n})] &=& \theta
\end{eqnarray}

よくある不偏推定量では正規分布の母平均があげられます。
例えば、確率変数\(X_{n}\)は正規分布\(N(\mu, \sigma^{2})\)に従うとする。そして各\(X_{n}\)は互いに独立とする。
この時、\(T(X) = \displaystyle \frac{1}{n}{\sum_{i=1}^{n}X_{i} } \)と統計量を定義したとき、

\begin{eqnarray}
E[T(X)]
&=& E[ \frac{1}{n} \sum_{i=1}^{n} X_{i} ] \\
&=& \frac{1}{n} \left\{E[X_{1} + X_{2} + ... + X_{n}] \right\} \\
&=& \frac{1}{n} \left\{E[X_{1}] + E[X_{2}] + ... + E[X_{n}] \right\} \\
&=& \frac{1}{n}{n \cdot \mu} \\
&=& \mu
\end{eqnarray}

よって、母集団の平均が例えば\(\mu\)ではなく\(\mu'\)になったとしても、同じ結果になります。
そのため、どんな任意の平均を取ったとしても、同じ結果になるということになります。
ポイントとしてはどんな任意というところです。
なので偶然に値が一致してもそれは意味がないということです。
となると、不偏推定量を見つけることってほぼほぼ無理な気がしますねー

どれか1つでも正規分布の確率変数が入った瞬間、不偏推定量にならなくなってしまいます。

分散の推定量

分散の定義式から、平均がわからないと分散は求まりません。
平均からの距離の平均になるので、当然平均がわからないと求まりません。

なので、上で平均\(\mu\)不偏推定量について学んだというところで、続いては分散をもう少し深ぼっていきたいと思います。
分散の定義は以下でしたね。
\begin{eqnarray}
V(X)
&=& E[ (X-E[X])^{2}] \\
&=& E[ (X-\mu)^{2}]
\end{eqnarray}

上記の式を以下のようにして展開をしてみましょう！
せっかく上で不偏推定量を用いたので、不偏推定量となる統計量を間に入れて計算をしてみます。
つまり、\(T(X)\)を\(\mu\)の不偏推定量と仮定して計算をしてみます。

\begin{eqnarray}
V(X) &=& E[ (X-E[X])^{2}] \\
&=& E[ (X-\mu)^{2}] \\
&=& E[ (X + (T(X) - T(X)) -\mu)^{2}] \\
&=& E[ ( (X - T(X)) + (T(X) -\mu))^{2}] \\
&=& E[ (X - T(X)^{2}) + 2(X - T(X))(T(X) -\mu) + (T(X) - \mu)^{2} ] \\
&=& E[ (X - T(X)^{2}) ] + E[2(X - T(X))(T(X) -\mu)] + E[(T(X) - \mu)^{2} ] ・・・②
\end{eqnarray}

\(②\)について考えると、
\(②\)の第2項については、もう少し展開すると、
\begin{eqnarray}
E[2(X - T(X))(T(X) -\mu)]
&=& 2E[(X-T(X))]E[T(X)-\mu] \\
&=& 2 \cdot (E[X]-E[T(X)]) \cdot (E[T(X)] -\mu) \\
\end{eqnarray}
となり、真ん中は\(E[X] = \mu\)と、不偏推定量の式と同じなので0、右は\(T(X)\)は\(\mu\)の不偏推定量ということから0になる。

従って、
\begin{eqnarray}
V(X)
&=& ② \\
&=& E[ (X - T(X))^{2}) ] + E[(T(X) - \mu)^{2} ] ・・・③
\end{eqnarray}
となります。

\(③\)の第1項では\(X\)と\(T(X)\)の差分、第2項では\(T(X)\)と平均\(\mu\)の差分となっている。
\(X\)から\(T(X)\)が導き出され、\(T(X)\)から\(\mu\)が導き出されと、左から順にそれぞれの処理ができているのがちょっと不思議。
このように分散\(V(X)\)は2つの以下項目に分解されるということになる。

この分散をバイアス・バリアンス分解と呼びます。
Variance(分散、ばらつき)はいつもの分散になるので、\(③\)の第1項になる。
Biasはバイアスなので、\(③\)の第2項になる。

バリアンス。第1項はよくみると確率変数Xと\(\mu\)の不偏推定量である\(T(X)\)なので、nが大きくなるとほぼ\(\mu\)に収束していくのでほぼ分散になります。
なので、第1項はバリアンスと呼ばれます。（おおよそ確率変数と平均値の差分なので。）
バイアス。「バイアスがかかる」という言葉がある通り、本来であればこういう値だけど何かのバイアスにより少し違う値になってしまったなどのことを意味しますね。
そのため同類の値での差分を示すものであり、第2項は\(T(X)\)と\(\mu\)というまさに推定量で同類のもの同士であるため、この2つの同類同士の差分をバイアスと定義しているわけです。

\(n \rightarrow \infty \)となると、不偏推定量は\(\mu\)に確率収束していくので、\(③\)の第2項は0になり、\(V(X)=E[ (X - \mu)^{2}) ]\)になり分散の定義そのものになります。

一様最小分散不偏推定量

最小分散不偏推定量とは、さまざまな不偏推定量の中で一番分散が小さくなるものをいいます。

不偏推定量の中で一様に分散が最小となる不偏推定量のことを言います。
ここでの不偏推定量とは、分散に対してなので平均の不偏推定量のことを言います。

\(E[T(x)] = \theta\)を満たす不偏推定量\(T(X)\)が、他の任意の\(\theta\)の不偏推定量\(S\)に対して、
\begin{eqnarray}
V(T(X)) \leq V(S) \qquad for \quad \forall{S}
\end{eqnarray}
を満たす時、\(T(X)\)は\(\theta\)の一様最小分散不偏推定量と言います。

この最小分散不偏推定量を求めるためには、
方法としてクラメール・ラオの不等式があります。

クラメール・ラオの不等式は不偏推定量での分散の下限を導出するものになる。
なので一様最小分散不偏推定量となるものを示唆してくれるわけではなく、
特定の不偏推定量の分散とクラメール・ラオの分散の下限値が一致したら、一様最小分散不偏推定量といえるというだけです。

ここまで、分散の最小を考えていますが、
分散が最小になると、
データがばらけていないということと、統計量の分散が最小なので、
その不偏推定いいということになります。

不偏推定量がない場合

不偏推定量がない場合は、他の方法でいい推定量を見つける必要があります。
代表的なものとしては、最尤法です。

最尤法は以下で扱ってますので、ぜひ読んでみてください！
最尤法