回帰係数のt検定

回帰係数\(\hat{\beta_{}}\)は
\begin{eqnarray}
E[\hat{\beta_{}}] &=& \beta \\
V[\hat{\beta_{}}] &=& \frac{\sigma^{2}}{\displaystyle \sum_{i=1}^{n}(x_{i} - \bar{x})^{2}} \\
\end{eqnarray}
そして、確率変数でもある回帰係数を標準化すると、

\begin{eqnarray}
Z
&=& \displaystyle \frac{\hat{\beta_{}} - E[\hat{\beta_{}}]}{\sqrt{V[\hat{\beta_{}}]}} \\
&=& \displaystyle\frac{\hat{\beta_{}} - \beta}{\sqrt{\frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}} }} \\
&\sim& N(0,1)
\end{eqnarray}

ここで、\(\sigma^{2}\)は誤差の母分散です。がこの母分散は実際に求めることはできず、一旦不偏分散に置き換えます。
誤差の不偏分散は以下となります。
\begin{eqnarray}
U^{2} &=&
\frac{1}{n-2} \sum_{i=1}^{2} (x_{i}-\bar{x})^{2}
\end{eqnarray}

そうすると、\(t\)分布に従うようになり、検定統計量\(T\)は
\begin{eqnarray}
T
&=& \displaystyle\frac{\hat{\beta_{}} - \beta}{\sqrt{ \frac{U^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}}} \\
&\sim& t(n-2)
\end{eqnarray}
自由度\(n-2\)のT分布に従うようになります。

Contents

0.1 t分布に従う理由

1 信頼区間を求める
2 予測区間の導出とt分布による信頼区間

t分布に従う理由

理由としては、上の式は、
\begin{eqnarray}
T
&=& \displaystyle \frac{\hat{\beta_{}} - E[\hat{\beta_{}}]}{\sqrt{V[\hat{\beta_{}}]}} \\
&=& \displaystyle\frac{\hat{\beta_{}} - \beta}{\sqrt{\frac{U^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}} }} \\
&=& \displaystyle\frac{\hat{\beta_{}} - \beta}{\sqrt{ \frac{U^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}} \cdot \frac{\sigma^{2}}{\sigma^{2}} }} \\
&=& \displaystyle\frac{\hat{\beta_{}} - \beta}{\sqrt{ \frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}} \cdot \frac{U^{2}}{\sigma^{2}} }} \\
&=& \displaystyle \frac{ \frac{\hat{\beta_{}} - \beta}{\sqrt{ \frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}} }} }{\sqrt{ \frac{U^{2}}{\sigma^{2}} }}・・・（※）
\end{eqnarray}

※について、分子は、
\begin{eqnarray}
\frac{\hat{\beta_{}} - \beta}{\sqrt{ \frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}} }}
&=& \frac{\hat{\beta_{}} - E[\hat{\beta_{}}]}{ \sqrt{V(\hat{\beta_{}})} } \\
&\sim& N(0,1)
\end{eqnarray}

※について、分母は、
\begin{eqnarray}
\sqrt{ \frac{U^{2}}{\sigma^{2}} }
&=& \sqrt{ \frac{ \frac{1}{n-2}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} }{\sigma^{2}} } \\
&=& \sqrt{ \frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} }{\sigma^{2}(n-2)} } \\
&\sim& \chi^{2}(n)
\end{eqnarray}
となりました。
ここで\(t\)分布には以下のような性質があります。

Zが\(\sim N(0,1)\)、Uが\(\chi^{2}(n)\)に従うとき、
\begin{eqnarray}
T &=& \displaystyle \frac{Z}{\frac{U}{n}}
\end{eqnarray}
となるとき、自由度\(n\)-2のT分布に従う。

これにより、\(t(n-2)\)に従うということになります。

でも最尤法でシグマ求めて、
そうすると、最尤推定量が求まり、これは不偏推定量になる？

信頼区間を求める

よって有意水準\(\alpha\)=0.05とした時、
信頼区間は、
\( -t_{0.05}(n-2) < T < t_{0.05}(n-2) \) となります。今回は求めた回帰係数\(\hat{\beta_{}}\)の信頼区間を求めるため、この不等式を\(\hat{\beta_{}}\)について解きます。 \begin{eqnarray} -t_{0.05}(n-2) < T < t_{0.05}(n-2) \\ -t_{0.05}(n-2) < \displaystyle\frac{\hat{\beta_{}} - \beta}{\sqrt{ \frac{U^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}}} < t_{0.05}(n-2) \\ -t_{0.05}(n-2)\sqrt{ \frac{U^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}} < \hat{\beta_{}} - \beta < t_{0.05}(n-2)\sqrt{ \frac{U^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}} \\ -t_{0.05}(n-2)\frac{U}{\sqrt{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}} + \beta < \hat{\beta_{}} < t_{0.05}(n-2)\frac{U}{\sqrt{\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}} + \beta \\ \end{eqnarray} となります。

予測区間の導出とt分布による信頼区間

ベクトルで計算します。
\begin{eqnarray}
e = \hat{y_{}} - y
\end{eqnarray}
まず標準正規分布に従うような確率変数を求めます。その確率変数を求めることで、Z分布に従うことがわかるので
1対1の写像ができる。

\begin{eqnarray}
E[e]
&=& E[\hat{y_{}} - y] \\
&=& E[\hat{y_{}}] - E[y] \\
&=& X\hat{\beta_{}} - y \\
&=& X(X^{T}(XX^{T})^{-1}y - y \\
&=& (X(X^{T}(XX^{T})^{-1} - I)y \\
\end{eqnarray}
右にyがついているので、右側にyを分配法則で除くということと、
ベクトルのスカラー値はIである単位行列に置き換える必要があるので、そこを注意する。

回帰係数を求めたけど、これ本当に正しいのか、優位性あるのかどうかを確認するための方法で検定をします。
回帰係数の信頼区間を求めるわけですが、
回帰係数の値を求めた上で信頼区間を求めても意味がありません。回帰係数の値を使って構築してはそれこそこの回帰係数が正しいのかどうか判定できないからです。

信頼区間は何もこう言った処理をせず、
あくまでとれた値だけを計算して、計算して得られた区間に、求めた回帰係数が含まれているのかどうかをチェックするということになります。
これで判定を行うというわけです。