真の分布\(g(z)\)は、パラメータ云々で1つに絞られる。
でも現在考えている確率密度関数\(f(x|\theta)\)はパラメータを動かしてどのパラメータを取った時、この真の分布と情報量的な観点で近くなるかを、定めたのが、カルバックライブラー情報量。
カルバックライブラー情報量を出した時、最終的に求めるのがまさに、この情報量が一番大きくなる時のパラメータとなる。
最尤法では対数尤度関数というものを定めました。
そしてここではお馴染み最尤法の、平均対数尤度を定義します。
平均対数尤度とはその名の通り、まず対数尤度が\(log(l(\theta))\)で、その平均なので\(E[log(l(\theta))]\)となります。
しかし色々と考えていく上で、どうしても計算をするのに真の分布のデータを用いる必要があります。
でも真の分布のデータを求めたいのに、その分布からのデータを用いることはできません。
そのため、すでに取得したデータを用いて経験分布を導出することが可能です。
バイアス項を考える
実際カルバックライブラーを簡単にした際に、以下のようになります。
カルバックライブラー情報量は以下のように噛み砕くことができ、
日本語訳すれば以下のように分解できます。
KL情報量 = (現在僕らが持ってる仮定した確率密度関数の対数尤度) + (実際に真の分布から得られたデータを用いて、今回僕らが仮定した確率密度関数による対数尤度)・・・\(①\)
しかし第2項目は真の分布から得られたデータであるので、実際そのデータを取得することは不可能です。
そのため、第2項目も同じ分布から得られたデータを用いて推定すればいいじゃん!ってなります。
となると、
KL情報量 = (現在僕らが持ってる仮定した確率密度関数の対数尤度) + (現在僕らが持ってる仮定した確率密度関数の対数尤度)・・・\(②\)
となり、あれ?同じじゃん意味ないじゃんwwってなります。
同じデータを用いることで、\(①\)の結果と\(②\)の結果でバイアスがかかることがわかります。
▼ 以下おさらいしましょう!最尤法
尤度関数:\(L(\theta)\)
対数尤度関数:\(l(\theta) = \log(L(\theta))\)
これら、尤度関数が最大→対数尤度関数も最大となり、その時の\(\theta\)は最尤推定量。
平均対数尤度:\(E[l(\theta)]\)
対数尤度関数や尤度関数が最大値ということは、データの個数が同じ\(n\)個だった時、1個あたりの値つまり平均値は最も大きい。
つまり、\(E[l(\theta)] = \displaystyle \frac{1}{n} \sum_{i=1}^{n} \log(f(x_{i} | \theta) \)
となると、
尤度関数が最大 → 対数尤度関数も最大になり、平均対数尤度も最大になる。
さらに面白いことに、
期待値を取っているので、その期待値の中身の確率変数は大数の法則により、以下のように変換が可能。
確率変数\(X\)とし、得られたデータを\(X_{i} k=1,2,3,...\)とし
\( \displaystyle \frac{1}{n} \sum_{i=1}^{n} X_{i} \)とした時、\(n\)を大きくしていくと、\(E[X]\)に確率収束する。
つまり、
\( E[\log_{G}(f(x|\theta))] = \displaystyle \frac{1}{n} \sum_{i=1}^{n} f(x_{i}|\theta) \)とすることができる。
ただ十分なn、つまり実用的に考えるとデータがいっぱいあったほうがよりこれが成立する。
カルバックライブラー情報量
\( KL(g(z)|f(x|\theta)) = \displaystyle \int g(z)\log( \frac{f(x|\theta)}{g(z)} ) \)