予測区間を考えるには、
そもそも回帰係数は今あるデータから算出したものになるわけですが、
偶然のデータで導かれたものなので、
もしかすると別のデータの組み合わせだと回帰係数がかなりズレたものになる可能性もあります。
それは外れ値を含んだデータで回帰分析をした時などですね。
それは単回帰分析であれば回帰診断図などで判定することもできますが、回帰係数に対してt検定をすることで、判定をすることなども可能です。
今回はそんな回帰係数のt検定について、考えていきたいと思います。
Contents
予測区間
\begin{eqnarray}
e &=& y - \hat{y_{}} \\
E[e] &=& 0 \\
V(e) &=& \sigma^{2} \Biggl[ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} \Biggr] \\
\end{eqnarray}
よって、Z分布は、
\begin{eqnarray}
Z
&=& \frac{e-E[e]}{\sqrt{V(e)}} \\
&=& \frac{y - \hat{y_{}}}{\sqrt{ \sigma^{2} [ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} ] }} \\
\end{eqnarray}
ここで、\(\sigma^{2}\)は誤差の母分散は不明なので、不偏分散\(U^{2}\)で置き換えます。
\begin{eqnarray}
U^{2}
&=& \frac{1}{n-2} \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \\
\end{eqnarray}
\begin{eqnarray}
Z
&=& \frac{y - \hat{y_{}}}{\sqrt{U^{2} [ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} ] }} \\
\end{eqnarray}
実はこれが置き換えることによって、T分布に従う統計量(確率変数)になります。
そしてこれが自由度\(n-2\)のt分布に従います。
T
&=& \frac{y - \hat{y_{}}}{\sqrt{U^{2} [ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} ] }} \\
&\sim& t(n-2)
\end{eqnarray}
t分布に従う理由
上でも話した通り、これがt分布に従うのですが、なぜでしょうか。ちょっと式変形をしてみます。
\begin{eqnarray}
T
&=& \frac{y - \hat{y_{}}}{\sqrt{U^{2} [ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} ] }} \\
&=& \frac{y - \hat{y_{}}}{\sqrt{\sigma^{2} [ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} ] \cdot \frac{U^{2}}{\sigma^{2} }}} \\
&=& \frac{ \frac{y - \hat{y_{}} }{ \sqrt{\sigma^{2} [ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} ]} } }{ \sqrt{\frac{U^{2}}{\sigma^{2} }} } \\
&=& \frac{ \frac{y - \hat{y_{}} }{ \sqrt{\sigma^{2} [ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} ]} } }{ \sqrt{\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{\sigma^{2}(n-2) }} } \\
\end{eqnarray}
ここで、
分子は\(N(0,1)\)に従い、分母は自由度\(n\)の\(\chi^{2}\)二乗分布に従うので、以下の定理から、確率変数\(T\)は\(t(n-2)\)に従うことがわかります。
\begin{eqnarray}
T &=& \displaystyle \frac{Z}{\frac{U}{n}}
\end{eqnarray}
となるとき、自由度\(n\)-2のT分布に従う。
これにより、\(t(n-2)\)に従うということになります。
予測区間の構成
よって、有意水準を\(\alpha\)=0.05とした時、
\begin{eqnarray}
-t_{0.05}(n-2) < T < t_{0.05}(n-2) \\
-t_{0.05}(n-2) < \frac{y - \hat{y_{}}}{\sqrt{U^{2} [ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} ] }} < t_{0.05}(n-2) \\
-t_{0.05}(n-2) \cdot U\sqrt{ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} } < y - \hat{y_{}} < t_{0.05}(n-2) \cdot U\sqrt{ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} } \\
-t_{0.05}(n-2) \cdot U\sqrt{ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} } + \hat{y_{}} < y < t_{0.05}(n-2) \cdot U\sqrt{ 1+\frac{1}{n}+ \frac{(\bar{x}-x_{0})^{2}}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} } + \hat{y_{}} \\
\end{eqnarray}