統計学

わかりやすい層別抽出法

2023年10月26日

層別サンプリングでは、
ある地域をMECEで層別にいくつかの層に分けます。
そしてそれぞれの層から上のようなことをします。

層の中にいる人からサンプリングをするわけですが、上でも話した通り、
非復元であるので独立ではなく、上の解法で求める必要があります。

ある1つの層に着目をした上で、
その層での標本平均の期待値と分散を求めます。

 

層別抽出法では、
層別で通常は有限母集団を考えます。
その中でいくつかの層(グループ)に分けて単純サンプリングを行うというものです。
人のサンプリングであれば同じ人をサンプリングすることはないので、非復元サンプリングになります。

層別サンプリング

標本平均\(\bar{X_{}}\)は、各層を\(k\)とした時、各層における標本平均を\(\bar{X_{k}}\)とした時、
\begin{eqnarray}
\bar{X_{}}
&=& \displaystyle \frac{1}{n} \sum_{i=1}^{k} \pi_{k}\bar{X_{k}} \\
\end{eqnarray}
となります。

 

よって、各層からのサンプリングは独立であること、
そして、各層からのサンプリングは、母集団が\(N_{k}\)の有限母集団でそこから非復元サンプリングで\(n_{k}\)個をサンプリングするということは、単純な有限母集団の非復元サンプリングであるので、各層の標本平均の分散が、\(V(\bar{X_{k}}) = \displaystyle \frac{\sigma_{k}^{2}}{n_{k}}( 1 - \frac{n_{k}-1}{N_{k}-1}) \)であること
から

標本平均の分散\(V(\bar{X_{}})\)は、

\begin{eqnarray}
V(\bar{X_{}})
&=& V(\frac{1}{n} \sum_{i=1}^{k} \pi_{k}\bar{X_{k}}) \\
&=& \pi_{1}^{2} V(\bar{X_{1}}) + \pi_{2}^{2} V(\bar{X_{2}}) + \pi_{3}^{2} V(\bar{X_{3}}) + \cdot\cdot\cdot + \pi_{n}^{2} V(\bar{X_{n}}) \\
&=& \pi_{1}^{2} \displaystyle \frac{\sigma_{1}^{2}}{n_{1}}(\displaystyle \frac{N_{1}-n_{1}}{N_{1}-1} ) +
\pi_{2}^{2} \displaystyle \frac{\sigma_{2}^{2}}{n_{2}}(\displaystyle \frac{N_{2}-n_{2}}{N_{2}-1} ) +
\pi_{3}^{2} \displaystyle \frac{\sigma_{3}^{2}}{n_{3}}(\displaystyle \frac{N_{3}-n_{3}}{N_{3}-1} ) +
\cdot\cdot\cdot +
\pi_{n}^{2} \displaystyle \frac{\sigma_{n}^{2}}{n_{n}}(\displaystyle \frac{N_{n}-n_{n}}{N_{n}-1} ) \\
&=& \sum_{k=1}^{n}\pi_{k}^{2}\cdot\displaystyle\frac{\sigma_{k}^{2}}{n_{k}}(\displaystyle\frac{N_{k}-n_{k}}{N_{k}-1}) \\
\end{eqnarray}

 

単純サンプリングと層別抽出法の比較

直感的にそれぞれのグループからいくつかをサンプリングするので、それぞれのグループの特徴をある程度反映したサンプリングができているので、それなりにサンプリングはうまく行ってそうな予感しますね!

ん?有限母集団で非復元サンプリング。。
以下のリンクで扱ってます!


直接有限母集団からいくつかサンプリングをした場合と、有限母集団をいくつかのグループに分けてそこからサンプリングする層別抽出法の場合ではどちらがよりいいサンプリングができるのかを考えていきましょう!!
これがポイントです!

さて、同じ有限母集団からの非復元サンプリング。
そのサンプリング方法が多少違いますが、条件は同じ。
どちらが良いサンプリングなのでしょうか?
比較するためにも、まずは層別抽出法での標本平均の期待値や分散を求めてみます!

(8.8)より\(N\)を\(\infty\)としたとき、
\begin{eqnarray}
\frac{1}{n} \sum_{i=1}^{k}\pi_{j}\sigma_{j}^{2} \cdot \frac{N_{j} - {n}}{N_{j} - 1}
&=& \frac{1}{n} \sum_{i=1}^{k}\pi_{j}\sigma_{j}^{2} \cdot \frac{1 - \displaystyle \frac{n}{N}}{1 - \displaystyle \frac{1}{N_{j}}} \\
&=& \frac{1}{n} \sum_{i=1}^{k}\pi_{j}\sigma_{j}^{2} \\
\end{eqnarray}

よって、
\(①\)有限母集団の非復元サンプリングにおける標本平均の分散と、
\(②\)有限母集団で複数の層に分けて、それぞれ\(n_{j}\)個を非復元サンプリングした際の標本平均の分散を比較して、
\begin{eqnarray}
① - ②
&=& \displaystyle \frac{\sigma^{2}}{n} - \displaystyle \frac{1}{n} \sum_{j=1}^{k}\pi_{j}\sigma_{j}^{2} \\
&=& \displaystyle \frac{1}{n} ( \sigma^{2} - \sum_{j=1}^{k} \pi_{j}\sigma_{j}^{2} ) \\
&=& \displaystyle \frac{1}{n} \sum_{j=1}^{k} \pi_{j}(\mu_{j}-\mu)^{2} \geq 0 \\
\end{eqnarray}
一番下は、層間分散と層内分散の違いから
\begin{eqnarray}
\sigma^{2} &=& \sum_{j=1}^{k} \pi_{j}\sigma_{j}^{2} + \sum_{j=1}^{k} \pi_{j}(\mu_{j}-\mu)^{2}
\end{eqnarray}
の法則を用いて変換しています。右辺の第1項は層内分散、右辺の第2項は層間分散です。
層内:層内のデータの分散なので通常の分散
層間:層を1つのデータとみなしたときの各層の間の距離(分散)

 

この結果から、
有限母集団の非復元サンプリングよりも、層別抽出法の方が良いサンプリングだということがわかりました!

 

そもそもなぜ標本平均の分散が小さいといいのか?

サンプリングする際に母集団の中でも外れ値というか、変な部分をサンプリングして、母平均とそのサンプリングで得た標本平均が離れているとよくないです。
例えば、10回のうち4回くらいが母平均よりも離れてるくらいのサンプリング方法を作った時に、それでコスト的にも1回しか実施できないサンプリングを実施したときに母平均から離れてしまっては良くないです。
全数調査するわけではないので完全一致は無理ですが、できる限り母平均に近いようなサンプリングができることが望ましいです。

 

そして実際は母平均がどこにあるかはわからないので、分散が大きくなく、ある程度同じところに標本平均が固まれば大体そこら辺に母平均があるよねと判定できます。
なので標本平均の分散が小さいことが重要になるということです。

 

サンプルをとる手法を考える

上ではあくまで層別ごとにサンプルを取るという手法を構築しました!
そして普通の有限母集団から非復元サンプリングをした時よりも、分散が小さいので層別抽出法はいいサンプリングとは言えました!
ただ、じゃあ各層からはどのくらいの数のサンプル数\(n_{j}\)を取ればいいのでしょうか?

 

それを考えるために、以下2つのパターンを考えます!

  • \(①\)【比例サンプリング法】各層ごとの数の比率に応じて、サンプル数を取得する
  • \(②\)【ネイマン分配法】全体の個数を一定にした上で、この層別抽出法の分散で最小となる各層のサンプリング数の組み合わせを求める

 

\(①\)比例サンプリング法

比例サンプリング法とは、各層の個数に応じて

 

\(②\)ネイマン分配法

\(n = \displaystyle \sum_{k=1}^{n} n_{k}\)と条件を定めた上でサンプリングをします。
サンプリングする総数は\(n\)で固定にしつつも、各層のサンプリングの数は変数にします。
なので、例えば、合計で100個をサンプリングするとした場合に、
層1:50個、層2:10個、層3:15個、層4:25個
層1:40個、層2:30個、層3:20個、層4:10個
というように、合計は100で固定にしつつも、各層のサンプリング数を変更して、数多あるパターンの中で一番標本平均の分散が小さくなるパターンを見つけるのが、ネイマン分配法と言います。

 

ラグランジュの未定乗数法を用いて見つけると、
\begin{eqnarray}
n_{j} &=& \frac{nN_{j}\sigma_{j} \sqrt{\displaystyle \frac{N_{j}}{N_{j}-1}} }{ \displaystyle \sum_{j=1}^{k} N_{j}\sigma_{j} \sqrt{\displaystyle \frac{N_{j}}{N_{j}-1}} }
\end{eqnarray}

\begin{eqnarray}
L
&=& V(\bar{X}) - \lambda(n-\sum_{j=1}^{k}n_{j}) \\
&=& \sum_{j=1}^{k}\pi_{j}^{2}\cdot\frac{\sigma_{j}^{2}}{n_{j}}\cdot\frac{N_{j}-n_{j}}{N_{j}-1} - \lambda(n-\sum_{j=1}^{k}n_{j}) \\
\end{eqnarray}
となり、未定乗数法で分散が最小になる時を考える。

\begin{eqnarray}
\frac{\partial L}{\partial\lambda}
&=& n - \sum_{j=1}^{k}n_{j} \\
&=& 0
\end{eqnarray}

\(n_{j}\)について偏微分します。
積の微分法を用いて、
\begin{eqnarray}
\frac{\partial L}{\partial n_{j}}
&=& \frac{\partial}{\partial n_{j}}(\pi_{j}^{2}\cdot\frac{\sigma_{j}^{2}}{n_{j}})(\frac{N_{j}-n_{j}}{N_{j}-1}) + (\pi_{j}^{2}\cdot\frac{\sigma_{j}^{2}}{n_{j}})\frac{\partial}{\partial n_{j}}(\frac{N_{j}-n_{j}}{N_{j}-1}) + \lambda \\
&=& 0
\end{eqnarray}

-統計学
-

© 2023 Yosshi Labo. Powered by AFFINGER5