未分類 統計学

カテゴリ分類系の話

カテゴリの分類系の手法としては、以下のようなものがある。

1. 判別分析
2. SVM(サポートベクターマシン)
3. クラスター分析(k-means法)

1.判別分析

判別分析はカテゴリに分けたものを使って、判別直線でデータを分けるための直線を求める。
これにより今後得られる将来データをその直線や曲線に当てはめてカテゴリわけしよう!というものです。

なのでサンプルデータが必要になるわけです。直線や曲線を求めるための。
正解データがあり、その上で直線を求め、その正解データでちゃんと分類できているか正解かを確認する。

2.SVM
1では分けるための直線を求めました。
でも実際綺麗に世の中のデータは直線でスパッとカテゴリわけできるものではありません。
そのため曲線でも分けれるようにしようというのが、このSVMです。

なので、1の判別分析は直線を、2のSVMは曲線を求めるということになります。

3.クラスター分析(k-means法)
クラスター分析は、1や2のように正解データではなく、
散らばっているデータをカテゴリ分けする際に使う手法です。
そのため、こう分けたいなどが定まっていない場合に、近しいものでまとめ上げる手法です。
そのため、この手法は正解がないので正解を教えてくれる人がいないということで、「教師なし学習」と言われます。

幾つにデータをカテゴライズしたいかなど不明のため、自分で定めます。
3つとすれば、3つにデータをカテゴライズします。

そして基本的にはk-means法のクラスター分析はユークリッド距離に基づいて、それぞれのデータが近いかどうかを判定します。
ユークリッドのためただの数値の比べになってしまいます。
k-medoid法はその対策として、標準化した値で近いかどうかの判定を行います。

-未分類, 統計学

© 2022 Yosshi Blog Powered by AFFINGER5