統計学の回帰分析などでたまに見る「多重共線性」。
どう言ったものかについてここでは説明していこうと思います。
多重共線性とは
多重共線性(マルチコ:multi-colinearlity(マルチ-コリニアリティ))は、その名の通り多くが重なっている線のイメージ。
多重共線性の話になると、回帰分析の中の説明変数同士で相関が高く、回帰分析の結果がおかしいものになってしまう(不定)という性質です。
\(y=ax_{1}+bx_{2}+c\)
\(x_{1}\)と\(x_{2}\)の相関が高いとすると、その方向ベクトルが近しいものになります。
\(x_{1}\)と\(x_{2}\)が相関が高いと同じ直線上に配置される。
要はベクトルで表すと、
$$
\vec{x_{1}} = z\vec{x_{2}}
$$
zは定数。
$$
\vec{a}+\vec{b}
$$
こう表せる。
それを、\(y=ax_{1}+bx_{2}+c\)に代入すると、
$$
y = ax_{1}+bx_{2}+c
=(az+b)x_{2}+c
・・・①
$$
と表されます。
ここでちょっと実験してみましょう!
例えば、\(a=100\)の時は
\(z=1\), \(b=0\)
\(z=2\), \(b=-100\)
...
というように、値が1つに定まりません。
さらに、\(b=24\)の時は
\(z=1\), \(a=76\)
\(z=2\), \(b=38\)
...
というように値が1つに定りません。
つまり、\(a,b,z\)の組み合わせが無限通りあるということです。
回帰係数\(a, b\)はこのように多重共線性が生じている場合は、不定になります。
なので、実際に図にしてみると、
ある点を通った上で、回帰直線がぐるぐる傾きが定まらなので回転するというイメージにあります。
これだとどうしても分析ができないですね。。
そのため、多重共線性が発生した場合は説明変数を取り除く、洗い出す作業が必要になります。
多重共線性が発生しているかの確認
多重共線性が発生しているかどうかを確認する方法としてはよく上がるのが、以下2つになります。
- 決定係数\(R^2\)が0.9以上。要は相関係数が0.9以上(強相関)
- VIF(分散拡大要因:Variance Indicator Factor)が0.01