わかりやすいAIC

2020年11月4日 2022年12月10日

真の分布\(g(z)\)は、パラメータ云々で1つに絞られる。
でも現在考えている確率密度関数\(f(x|\theta)\)はパラメータを動かしてどのパラメータを取った時、この真の分布と情報量的な観点で近くなるかを、定めたのが、カルバックライブラー情報量。

カルバックライブラー情報量を出した時、最終的に求めるのがまさに、この情報量が一番大きくなる時のパラメータとなる。

最尤法では対数尤度関数というものを定めました。
そしてここではお馴染み最尤法の、平均対数尤度を定義します。
平均対数尤度とはその名の通り、まず対数尤度が\(log(l(\theta))\)で、その平均なので\(E[log(l(\theta))]\)となります。

しかし色々と考えていく上で、どうしても計算をするのに真の分布のデータを用いる必要があります。
でも真の分布のデータを求めたいのに、その分布からのデータを用いることはできません。
そのため、すでに取得したデータを用いて経験分布を導出することが可能です。

バイアス項を考える

実際カルバックライブラーを簡単にした際に、以下のようになります。
カルバックライブラー情報量は以下のように噛み砕くことができ、
日本語訳すれば以下のように分解できます。

KL情報量 = （現在僕らが持ってる仮定した確率密度関数の対数尤度） + （実際に真の分布から得られたデータを用いて、今回僕らが仮定した確率密度関数による対数尤度）・・・\(①\)
しかし第2項目は真の分布から得られたデータであるので、実際そのデータを取得することは不可能です。
そのため、第2項目も同じ分布から得られたデータを用いて推定すればいいじゃん！ってなります。

となると、
KL情報量 = （現在僕らが持ってる仮定した確率密度関数の対数尤度） + （現在僕らが持ってる仮定した確率密度関数の対数尤度）・・・\(②\)
となり、あれ？同じじゃん意味ないじゃんwwってなります。

同じデータを用いることで、\(①\)の結果と\(②\)の結果でバイアスがかかることがわかります。

▼ 以下おさらいしましょう！最尤法

【最尤法に出てくる様々な指標】
尤度関数：\(L(\theta)\)
対数尤度関数：\(l(\theta) = \log(L(\theta))\)
これら、尤度関数が最大→対数尤度関数も最大となり、その時の\(\theta\)は最尤推定量。

平均対数尤度：\(E[l(\theta)]\)
対数尤度関数や尤度関数が最大値ということは、データの個数が同じ\(n\)個だった時、1個あたりの値つまり平均値は最も大きい。
つまり、\(E[l(\theta)] = \displaystyle \frac{1}{n} \sum_{i=1}^{n} \log(f(x_{i} | \theta) \)
となると、
尤度関数が最大 → 対数尤度関数も最大になり、平均対数尤度も最大になる。

さらに面白いことに、
期待値を取っているので、その期待値の中身の確率変数は大数の法則により、以下のように変換が可能。

【大数の法則】
確率変数\(X\)とし、得られたデータを\(X_{i} k=1,2,3,...\)とし
\( \displaystyle \frac{1}{n} \sum_{i=1}^{n} X_{i} \)とした時、\(n\)を大きくしていくと、\(E[X]\)に確率収束する。

つまり、
\( E[\log_{G}(f(x|\theta))] = \displaystyle \frac{1}{n} \sum_{i=1}^{n} f(x_{i}|\theta) \)とすることができる。
ただ十分なn、つまり実用的に考えるとデータがいっぱいあったほうがよりこれが成立する。

カルバックライブラー情報量

【カルバックライブラー情報量】
\( KL(g(z)|f(x|\theta)) = \displaystyle \int g(z)\log( \frac{f(x|\theta)}{g(z)} ) \)

-統計学
-統計学

: カテゴリ分類系の話

カテゴリの分類系の手法としては、以下のようなものがある。 1. 判別分析 2. SVM(サポートベクターマシン) 3. クラスター分析(k-means法) 1.判別分析判別分析はカテゴリに分けたもの ...

: 数量化

数量化とは数量化は例えば性別などのデータを取る男と女の2種類がある。この時1と0を割り当てる分けですが、性別のデータは男と女とあるので、男と女の2つの説明変数（ディメンション）を考える。 ...

: ポアソン分布・指数分布・ガンマ分布の関係性

離散分布である、ポアソン分布。連続分布である、指数分布とガンマ分布。これらは実は深い関係性があります。ここでは、そんな関係性について考えて、密度関数が複雑なこの3つの分布についてより覚えやすくな ...

: わかりやすい単純（復元・非復元）サンプリング

サンプリングを考える場合は、復元と非復元を考える必要があります。さらに言えば復元の場合は、毎回全てのデータがある状態でサンプリングなので、1個前にサンプリングしたデータがどんなものであれ、毎回全て ...

NEXT: クロスオリジン通信(Cross Origin)と同一成制限ポリシー(Same Origin)