下では仮説検定とネイマンピアソンの基本定理について解説をしました。
わかりやすい仮説検定とネイマンピアソンの定理
ここではもう少し具体的に話していこうと思います。
連続分布の例
以下のように帰無仮説と対立仮説を定義する。
\begin{eqnarray}
帰無仮説 \, H_{0}: \mu &=& \mu_{0} \\
対立仮説 \, H_{1}: \mu &<& \mu_{0} \\ \end{eqnarray} 以下の検定方式\(\delta(X)\)を考える \begin{eqnarray} \delta(X) &=& \left\{ \begin{array}{l} 1, \quad if \displaystyle \quad \frac{\prod_{i=1}^{n}f(x_{i}|\mu, \sigma^{2})}{\prod_{i=1}^{n}f(x_{i}|\mu, \sigma^{2})} > k \\
r, \quad if \displaystyle \quad \frac{\prod_{i=1}^{n}f(x_{i}|\mu, \sigma^{2})}{\prod_{i=1}^{n}f(x_{i}|\mu, \sigma^{2})} = k \\
0, \quad if \displaystyle \quad \frac{\prod_{i=1}^{n}f(x_{i}|\mu, \sigma^{2})}{\prod_{i=1}^{n}f(x_{i}|\mu, \sigma^{2})} < k \\ \end{array} \right. \end{eqnarray}
帰無仮説で仮定した分布から出たデータなのか、それとも不備があると認定される対立仮説から出たデータなのかを判定してみたいと思います。
離散分布の例
この確率変数の値までは普通に算出し、その後の値についてはギリギリまで攻めて、有意水準にオーバーしないようなところまで持っていく。
 
ネイマンピアソンの基本定理を用いる前提のため、片側対立仮説しか取れないことに注意する。
以下のように帰無仮説と対立仮説を定義する。
\begin{eqnarray}
帰無仮説 \, H_{0}: p &=& p_{0} \\
対立仮説 \, H_{1}: p &<& p_{0} \\ \end{eqnarray} 以下の検定方式\(\delta(X)\)を考える \begin{eqnarray} \delta(X) &=& \left\{ \begin{array}{l} 1, \quad if \displaystyle \quad \frac{\prod_{i=1}^{n}f(x_{i};p_{1})}{\prod_{i=1}^{n}f(x_{i};p_{0})} > k \\
r, \quad if \displaystyle \quad \frac{\prod_{i=1}^{n}f(x_{i};p_{1})}{\prod_{i=1}^{n}f(x_{i};p_{0})} = k \\
0, \quad if \displaystyle \quad \frac{\prod_{i=1}^{n}f(x_{i};p_{1})}{\prod_{i=1}^{n}f(x_{i};p_{0})} < k \\ \end{array} \right. \end{eqnarray} ※ 上記で対立問題を仮定した上で、逆側の
※ 出だしは以下のようにデータが出てくるたびに過去のデータも含めて計算をするので、掛け算する。ちょっとネイマンピアソンの定理の検定方法とは違うが
\begin{eqnarray}
\prod_{i=1}^{n}f(x_{i};p_{0})
&=& \prod_{i=1}^{n}{}_mC_n p_{0}^{x_{i}}(1-p_{0})^{m-x_{i}} \\
&=& \prod_{i=1}^{n}{}_mC_n p_{0}^{\sum_{i=1}^{n} x_{i}}(1-p_{0})^{mn-\sum_{i=1}^{n} x_{i}} \\
\end{eqnarray}
そして同じ分布のサンプリングで、片側対立仮説では\(p_{1}\)なので、上の式を\(p_{0}\)を\(p_{1}\)に置き換えて、
\begin{eqnarray}
\frac{\prod_{i=1}^{n}f(x_{i};p_{1})}{\prod_{i=1}^{n}f(x_{i};p_{0})}
&=& \frac{ \prod_{i=1}^{n}{}_mC_n p_{0}^{\sum_{i=1}^{n} x_{i}}(1-p_{0})^{mn-\sum_{i=1}^{n} x_{i}} }{ \prod_{i=1}^{n}{}_mC_n p_{1}^{\sum_{i=1}^{n} x_{i}}(1-p_{1})^{mn-\sum_{i=1}^{n} x_{i}} } \\
&=& \left\{ \frac{(1-p_{0})p_{1}}{(1-p_{1})p_{0}} \right\}^{\sum_{i=1}^{n} x_{i}} > k \\
&=& \sum_{i=1}^{n}x_{i} < k'
\end{eqnarray}
※ 両辺0より大きいので対数とって計算。
従って、以下のように今回の検定は基本定理から以下のような検定方式に帰着できる。
\delta(X) &=&
\left\{
\begin{array}{l}
1, \quad if \quad \sum_{i=1}^{n}x_{i} < k' \\ r, \quad if \quad \sum_{i=1}^{n}x_{i} = k' \\ 0, \quad if \quad \sum_{i=1}^{n}x_{i} > k' \\
\end{array}
\right.
\end{eqnarray}
当然ネイマンピアソンの基本定理に帰着されるので、検定方式は1,r,0になる。ぶれちゃいけない!だって期待値計算する時にデルタ=1が外れつまりリスク関数となるので。その印となる。
\(E[\delta(X)] = \alpha\)を考えると、
そして、xは二項分布に従うので、
\begin{eqnarray}
E[\delta(X)]
&=& 1 \cdot P(\delta(X) = 1) + r \cdot P(\delta(X) = r) + 0 \cdot P(\delta(X) = 0) \\
&=& P \left(\displaystyle \sum_{i=1}^{n}x_{i} < k' \right) + r \cdot P \left(\displaystyle \sum_{i=1}^{n}x_{i} = k' \right) \\
&=& {}_nC_x p^{k'}(1-p)^{x-k'} + r \cdot p^{2} \\
\end{eqnarray}
これはまさに、xをとっていき、ここまでの値は問題ないので0でカウントし、ハズレは1でカウントしてという確立云々の話ではなくなった。
ネイマンピアソンの基本定理での検定方法では\(\frac{f(x_{i}|\theta_{0})}{f(x_{i}|\theta_{1})} > k\)となっているが、別にこれしかダメとかはなく、これを満たすような感じの検定方法であれば問題ない。
そのため、今回のようなゆうどの形で検定方式を考える。基本定理の検定方式と今回の検定方式は同値である。
離散分布では今回の検定のように1と0の間をとるrという値が必要になる。
検定ではギリギリのところを攻めるということを考えると、そのrが重要になる。
確率変数は1,2,3,...のように飛び飛びの値になるので、2や3とかでちょうど最強力検定となる検定方式であるのであれば問題ないが、
その2と3の間でちょうど最強力検定となるのであれば、その間も考慮する必要がある。それが離散ではrを用いる所以である。
不偏検定:両側検定検定
先程扱ったネイマンピアソンの基本定理は片側検定を想定しているが、ここでは両側検定を想定します。
そして片側検定では、一番検出力の高い検定を最強力検定と呼びましたが、
ここでの両側検定で、一番検出力の高い検定を不偏検定と呼びます。
通常最強力検定となるものは、ネイマンピアソンの基本定理で検定方式を証明していますが、
不偏検定となるものは、一般的には存在しないです。
まとめ
項目 | 単純対立で検出力最大の検定 | 複合対立で検出力最大の検定 |
---|---|---|
片側検定 | 最強力検定(MP検定) | 一様最強力検定(UMP検定) |
両側検定 | 不偏検定 | 一様最強力不偏検定(UMPU検定) |
尤度比検定
ネイマンピアソンの基本定理を用いて尤度比検定を行うことができる。
一様検定
これは両側検定
すべての\(\theta\)に対して、以下が成立するとき、不偏推定量である。
\(E[\hat{\theta(x)}] = \theta for all \theta \)
例えば正規分布の確率変数の平均は不偏推定量になります。
理由としては正規分布を\(N(\mu, \sigma^{2}) \)としたとき、これは確率変数xの平均が\(\mu\)としていることになります。母平均が\(\mu\)
このとき、取れたデータに対して平均の期待値を出すと、\(\mu\)になるので、これはまさに不偏推定量になります。
要はどんなパラメータの値でも平均が0.2とか10000であったとしても、必ず標本平均の期待値が0.2や10000になるので、どんなパラメータであったとしても成立するので、これは不偏推定量ということになります。
二項分布のパラメータは確率pです。
これはサンプル大きくなればなるほど収束するので値は定まります。
そしてそれが不偏推定量か?
データをサンプリングしていき、都度その時点での確率を求めると、毎回値は変わります。
ということは期待値をとっても最終的にな確率には毎回なるとは限らないので、不偏推定量ではありません。
===========================
統計家はデータを1つ得た時、それを帰無、対立どちらが正しいかを判断します。
その時、例えば帰無と対立の分布がそもそも被っていなければ、出た値(確率変数)に対して普通に判定を下すことができる。
でも、帰無の分布と対立の分布が被っている状況を考える。
この時被っているのは上の画像のような状況です。
その被っているところのデータが出た場合、そのデータが対立分布から発生したものなのか、帰無から発生したものなのかを判定しないといけない
その被っている部分がいわゆる錯誤の問題
でも錯誤の中でもやばい錯誤などがある。それが第1種の錯誤。
第1種の錯誤は決められていて、有意水準5%にデータが入ったら棄却。というルールがある。
つまり有意水準5%のところにデータが発生したら、それはもう帰無ではないよね。棄却しようよ。つまり対立だよねって判断するところ
なので第1種の錯誤である有意水準を固定にした上で、第2種の錯誤が最小になればリスク関数全体でも最小になる?
結局第1種と第2種はどちらかを小さくすると、片方は確率が大きくなってしまう。
なので、第1種を固定にする
最強力検定は、両側で考える
ネイマンピアソンは、片側で考える