統計学

わかりやすい多変量正規分布

2023年2月16日

通常の1次元正規分布

【正規分布】
\begin{eqnarray}
f(x|\mu, \sigma)
&=& \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\Bigr\{ \frac{(x-\mu)^{2}}{2\sigma^{2}} \Bigr\} \\
&=& \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\Bigr\{ \frac{1}{2} \Bigr(\frac{x-\mu}{\sigma}\Bigr)^{2} \Bigr\} \\
\end{eqnarray}

多変量正規分布

多変量なので、2次元以上の正規分布を扱います。
これは1つの正規分布の確率変数が2つ以上あることです。
よく間違えられるのが、混合正規分布です。これは1次元正規分布が複数あるということで、確率変数が複数ではなく正規分布が複数ある場合です。

今まで、上では、
1つの確率変数の平均と分散を求めていました。
しかし2つ以上の確率変数となると、平均や分散はスカラー値ではなくなることは想像できると思います。
さらに、今回2つ以上の確率変数です。
となると、相関係数のように複数の確率変数の相関や影響があります。
なので、分散は共分散を考える必要があります。
なので、ここで上の定義式から、平均を平均ベクトルに、分散を共分散\(\Sigma\)に置き換えて、定義します。

【多変量正規分布】
確率変数を\(x_{1}, x_{2}, ..., x_{k}\)とし、平均ベクトルを\(\mu = (\mu_{1}, \mu_{2}, ...,\mu_{k})\)、分散共分散行列を\(\Sigma\)とした時、
\begin{eqnarray}
f(x_{1}, x_{2}, ..., x_{k}|\mu, \Sigma)
&=& \frac{1}{\sqrt{(2\pi)^{k}\det(\Sigma)}} \exp\{ (x-\mu)^{T}\Sigma^{-1}(x-\mu) \}
\end{eqnarray}

となります。
なぜこうなったか、直感的な感覚で説明します。

覚え方

まず確率密度関数はスカラー値にならないといけません。そのため、共分散は行列なのでどうにかして定数にします。
通常の正規分布で\(\sigma\)となるところに、今回共分散を置くわけですが、
まず、\(\sqrt{2\pi\sigma^{2}}\)の部分。
ここの\(\sigma^{2}\)に直接\(\Sigma\)と入れても、行列になり、分母が行列になるのはダメですね。
なので、どうにかして行列を定数化しないといけないのですが、それは、行列式を求めることです。
共分散の行列式を置くことによって、定数になります。

そして、エクスポーネンシャルの中にある分母にある\(\sigma^{2}\)。
これもじゃあ分母だから定数化すれば良いのでは?と思いそうですが、
上に\(x-\mu\)があり、これは後で説明しますが、ベクトルになります。つまり分数の分子がベクトルになりおかしくなります。
なので、ここで、分母の\(\sigma^{2}\)を共分散にするとき、上に持っていくことで、ベクトル×行列×ベクトルで、定数化するようにします。
ちなみに、分母に共分散\(\Sigma\)とおいて、それを上に持っていくので-1乗して、、行列に-1乗なので、分子に移動した共分散は逆行列になります。

あくまでこれは僕の覚え方です。笑
線形代数の理論としてはメチャクチャなのでお許しを。。
忘れないように、こういう覚え方をしてました的な、紹介でした!

2次元正規分布

2次元正規分布を求めてみたいと思います!
定義は以下となります。

【2次元正規分布】
確率変数を\(x,y\)とし、平均ベクトルを
\(\mu = (\mu_{x}, \mu_{y}) \)、分散共分散行列を\(\Sigma
=
\begin{pmatrix}
\sigma_{x}^{2} & \sigma_{xy} \\
\sigma_{yx} & \sigma_{y}^{2} \\
\end{pmatrix}\)
とした時、
\begin{eqnarray}
f(x, y|\mu, \Sigma)
&=& \frac{1}{\sqrt{(2\pi)^{2}\det(\Sigma)}} \exp\{ (x-\mu)^{T}\Sigma^{-1}(x-\mu) \}
\end{eqnarray}

共分散は、相関係数の公式から、\(x\)と\(y\)の相関係数を\(r\)とした時、
\begin{eqnarray}
r = \frac{\sigma_{xy}}{\sqrt{\sigma_{x}^{2}} \sqrt{\sigma_{y}^{2}} }
\end{eqnarray}
なので、\( \sigma_{xy}=r\sigma_{x}\sigma_{y}\)

 

2次元で考える

2次元正規分布は、
\begin{eqnarray}
f((x,y)
&=& \frac{1}{\sqrt{(2\pi)^{2}}\left|\sum\right|} \exp \Bigr\{ -\frac{(x-\mu_{x})^{T}\sum^{-1}(y-\mu_{y})}{2} \Bigr\}
\end{eqnarray}
ここで、分解していきます。

 

\begin{eqnarray}
det(\sum)
&=& \sigma_{x}^{2}\sigma_{y}^{2} - \rho^{2}\sigma_{x}^{2}\sigma_{y}^{2} \\
&=& \sigma_{x}^{2}\sigma_{y}^{2}(1 - \rho^{2})
\end{eqnarray}

 

そして、
\begin{eqnarray}
(x-\mu_{x})^{T}{\sum}^{-1}(y-\mu_{y})
&=& (x-\mu_{x}, y-\mu_{y}) \cdot \frac{1}{\sigma_{x}^{2}\sigma_{y}^{2}(1 - \rho^{2})}
\begin{pmatrix}
\sigma_{y}^{2} & -\rho\sigma_{x}\sigma_{y} \\
-\rho\sigma_{x}\sigma_{y} & \sigma_{x}^{2} \\
\end{pmatrix}
\begin{pmatrix}
x - \mu_{x} \\
x - \mu_{y} \\
\end{pmatrix} \\
&=& \frac{1}{\sigma_{x}^{2}\sigma_{y}^{2}(1 - \rho^{2})} (x-\mu_{x}, y-\mu_{y})
\begin{pmatrix}
\sigma_{y}^{2} & -\rho\sigma_{x}\sigma_{y} \\
-\rho\sigma_{x}\sigma_{y} & \sigma_{x}^{2} \\
\end{pmatrix}
\begin{pmatrix}
x - \mu_{x} \\
x - \mu_{y} \\
\end{pmatrix} \\
&=& \frac{1}{\sigma_{x}^{2}\sigma_{y}^{2}(1 - \rho^{2})} \cdot
(\sigma_{y}^{2}(x-\mu_{x})-\rho\sigma_{x}\sigma_{y}(y-\mu_{y}) - \rho\sigma_{x}\sigma_{y}(x-\mu_{x}) + \sigma_{x}^{2}(y-\mu_{y}))
\begin{pmatrix}
x - \mu_{x} \\
x - \mu_{y} \\
\end{pmatrix} \\
&=& \frac{1}{\sigma_{x}^{2}\sigma_{y}^{2}(1 - \rho^{2})} \cdot
(\sigma_{y}^{2}(x-\mu_{x})^{2}-\rho\sigma_{x}\sigma_{y}(x-\mu_{x})(y-\mu_{y}) - \rho\sigma_{x}\sigma_{y}(x-\mu_{x})(y-\mu_{y}) + \sigma_{x}^{2}(y-\mu_{y})^{2}) \\
&=& \frac{1}{\sigma_{x}^{2}\sigma_{y}^{2}(1 - \rho^{2})} \cdot
(\sigma_{y}^{2}(x-\mu_{x})^{2} - 2\rho\sigma_{x}\sigma_{y}(x-\mu_{x})(y-\mu_{y}) + \sigma_{x}^{2}(y-\mu_{y})^{2}) \\
&=& \frac{1}{1 - \rho^{2}}\Bigr(\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2} - 2\rho\frac{x-\mu_{x}}{\sigma_{x}} \frac{y-\mu_{y}}{\sigma_{y}} + \Bigr(\frac{y-\mu_{y}}{\sigma^{y}}\Bigr)^{2} \Bigr) \\
\end{eqnarray}

 

従って、2次元正規分布は、
\begin{eqnarray}
f(x,y)
&=& \frac{1}{\sqrt{2\pi}^{2}\sigma_{x}\sigma_{y}\sqrt{1-\rho^{2}}} \exp \Bigr\{ \frac{1}{2(1-\rho^{2})} \Bigr\{ (\frac{x-\mu_{x}}{\sigma_{x}})^{2}
-2\rho(\frac{x-\mu_{x}}{\sigma_{x}})(\frac{y-\mu_{y}}{\sigma_{y}}) + (\frac{y-\mu}{\sigma_{y}})^{2} \Bigr\} \Bigr\}
\end{eqnarray}
となります。

 

条件付きの分布を導出してみる

ここで、\(X=x\)を取った時に、\(y\)の分布を出してみます。
\begin{eqnarray}
f(y|X=x)
&=& \frac{f(x,y)}{f(x)} \\
&=&
\frac
{ \displaystyle \frac{1}{\sqrt{2\pi}^{2}\sigma_{x}\sigma_{y}\sqrt{1-\rho^{2}}} \exp\Bigr\{ \frac{1}{2(1-\rho^{2})} \Bigr\{ \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2}
-2\rho\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr) + \Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr)^{2} \Bigr\}
\Bigr\}}
{ \displaystyle \frac{1}{\sqrt{2\pi\sigma_{x}^{2}}} \exp\Bigr\{ \frac{1}{2} \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2} \Bigr\} } \\
&=& \frac{1}{\sqrt{2\pi}\sigma_{y}\sqrt{1-\rho^{2}}} \cdot
\frac{\displaystyle \exp\Bigr\{ \frac{1}{2(1-\rho^{2})}\Bigr\{ \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2}
-2\rho\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr) + \Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr)^{2}
\Bigr\}\Bigr\} }{\displaystyle \exp\Bigr\{ \frac{1}{2} \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2} \Bigr\} } \\
&=& \frac{1}{\sqrt{2\pi}\sigma_{y}\sqrt{1-\rho^{2}}} \cdot
\displaystyle \exp\Bigr\{ \frac{1}{2(1-\rho^{2})}\Bigr\{ \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2}
-2\rho\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr) + \Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr)^{2}
\Bigr\} - \frac{1}{2} \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2} \Bigr\} \\
\end{eqnarray}

 

ここで、\(\exp\)の中を\(A\)とすると、
\begin{eqnarray}
A
&=&
\frac{1}{2(1-\rho^{2})}\Bigr\{ \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2}
-2\rho\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr) + \Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr)^{2}
\Bigr\} - \frac{1}{2} \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2} \\
&=&
\frac{1}{2(1-\rho^{2})}\Bigr\{ \Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2}
-2\rho\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr) + \Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr)^{2} - (1-\rho^{2})\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2} \Bigr\} \\
&=&
\frac{1}{2(1-\rho^{2})}\Bigr\{
\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr)^{2}
-2\rho\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr)
+ \rho^{2}\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)^{2}
\Bigr\} \\
&=&
\frac{1}{2(1-\rho^{2})}\Bigr\{
\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr)
- \rho\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)
\Bigr\}^{2} \\
&=&
\frac{1}{2\sigma_{y}^{2}(1-\rho^{2})}\Bigr\{
y-\mu_{y}
- \rho\sigma_{y}\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)
\Bigr\}^{2} \\
&=&
\frac{1}{2\sigma_{y}^{2}(1-\rho^{2})}\Bigr\{
y-\Bigr(\mu_{y} + \rho\sigma_{y}\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)\Bigr)
\Bigr\}^{2} \\
\end{eqnarray}

 

従って、
\begin{eqnarray}
f(y|X=x)
&=& \frac{1}{\sqrt{2\pi}\sigma_{y}\sqrt{1-\rho^{2}}} \cdot \displaystyle \exp\Bigr\{ A \Bigr\} \\
&=& \frac{1}{\sqrt{2\pi}\sigma_{y}\sqrt{1-\rho^{2}}} \cdot
\displaystyle \exp\Bigr\{
\frac{1}{2\sigma_{y}^{2}(1-\rho^{2})}\Bigr\{
y-\Bigr(\mu_{y} + \rho\sigma_{y}\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr)\Bigr)\Bigr\}^{2}
\Bigr\} \\
\end{eqnarray}

 

1次での正規分布と比較すると、
\(\sigma_{y}\)は\(\sigma_{y}^{2}(1-\rho^{2})\)であり、
\(\mu_{y}\)は\(\displaystyle \mu_{y}+\rho\sigma_{y}\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr) \)であることから、
\(y\)は\(X=x\)において、\(y \sim N\Bigr( \displaystyle \mu_{y}+\rho\sigma_{y}\Bigr(\frac{x-\mu_{x}}{\sigma_{x}}\Bigr) , \sigma_{y}^{2}(1-\rho^{2})\Bigr) \)に従うことがわかりました。

 

もちろん、今は\(X=x\)とした場合の\(y\)の条件付き分布をもとめましたが、
逆に\(Y=y\)とした場合の\(x\)の条件付き分布を求めることもできます。
上で求めた分散と期待値を、そのままyをxに、xをyに置き換えるだけです。

なので、
\(x\)は\(Y=y\)において、\(x \sim N\Bigr( \displaystyle \mu_{x}+\rho\sigma_{x}\Bigr(\frac{y-\mu_{y}}{\sigma_{y}}\Bigr) , \sigma_{x}^{2}(1-\rho^{2})\Bigr) \)に従うことがわかりました。

-統計学
-

© 2024 Yosshi Labo. Powered by AFFINGER5