無作為なサンプリング

ここではサンプリングを扱いますが、
MCMC法などにある重点サンプリングやギブスサンプリングとはまた違うもので、あくまで母集団からいかにして標本データを得るかの話になります。
とるからにはある程度母平均であったり母分散に近しいサンプリングを用いたいですよね。

仮説検定などでもサンプルサイズの設計をしますが、そこで決めたnをここでどのくらい集めればいいか、にも関わってきます。

サンプリングは有限なもの場合、以下のような制限がつきます。
\(\displaystyle 1-\frac{n}{N}\)

例えば超幾何分布では、有限\(N\)個の中から非復元でサンプリングするので、この場合、
期待値は
\(\displaystyle \frac{n}{N}(1-\frac{n}{N})\)

普通に考えます。
離散では、
1*1/2+2*3/4*...
=\

確率変数には必ず期待値と分散があるので、
期待値と分散をそれぞれ\(\mu\)、\(\sigma^{2}\)と定義します。

非復元だとそれぞれが独立ではなくなります。
確率はそれぞれ1/Nで出ます。
そして確率密度関数は、1/N * 1/N-1 * ・・・
となります。
これは例えばどんな確率だったとしてもそうです。

例えば袋の中に1と書かれた玉が5つあったあったとします。
袋には13個あったら、普通は5/13です。でもこれが適用できるのはそもそも復元の時。毎回5/13です。1が出るのは。

Contents

1 無作為抽出

無作為抽出

サンプリングには無限と有限があります。
例えば袋の中からサンプリングをする場合は個数が決まっているので有限、
どんな母集団やサンプリングでも、必ず有限があります。
しかし、有限だったとしても、復元と非復元で変わります。
復元なら、取ったサンプリングを再度それに戻すので、永遠に無限のサンプリングになりますし、
非復元なら、取ったサンプリングを再度戻すことはしないので、サンプリングをしているといつか有限で全てのサンプリングが終了する時期が来ます。

1. 有限で復元の場合

母集団が有限つまり袋の中にN個あるとし、そして復元なので1つサンプリングするごとに再度袋に戻します。
これはまさに、超幾何分布になります。
超幾何分布は以下で扱ってるので、証明はしませんが、
期待値と分散は以下のようになります。
\begin{eqnarray}
E[X] = \frac{n}{N}(1 - \frac{n}{N}\)
V[X] = \frac{n}{N}(1 - \frac{n}{N}\)
\end{eqnarray}

復元の場合は、確率変数ごとに確率が定義されます。
例えば超幾何分布で、10個の玉が入った袋があって、その中に赤玉が3つあったとする。
この時袋からn個取るとなった時に、復元であれば、
赤玉が出る確率は毎回\(\displaystyle \frac{3}{10}\)です。

超幾何分布の分散は、
\begin{eqnarray}
V(X) = np(1-p)\frac{N-n}{N-1}
\end{eqnarray}

2. 有限で非復元の場合

有限なので袋の中にN個あるとし、そして非復元なので1つサンプリングするごとに袋に戻すようなことはしません。
そのため、普通に考えると

\begin{eqnarray}
\frac{1}{N} * \frac{1}{N-1} * \frac{1}{N-2} * ・・・
\end{eqnarray}

非復元の場合

復元とは同じように、確率変数ごとに一定の確率となるわけではありません。
非復元では戻さないので、例えば上の例で、10個入った袋から、1つ赤を取ると、確率は3/10です。
しかし戻さないので次は9個入った袋から玉を取り出すので、確率の分母は9になります。赤を取り出すとしたら、2/9となり、一定ではありませんね。

非復元の例としては、日本人の身長を無作為にサンプリングする場合ですね。
サンプリングして、計測したその日本人の身長をとって、再度復元するわけないですよね。普通にその人はもう計測しないというのが普通です。
ある集団からAさんをサンプリングして、また集団にAさんを戻してそしてAさんをサンプリングして、、ってことはしないはずです。

非復元では全てが1つのものと見立てて、確率を考える必要があります。

有限で\(N\)個入った袋から、n個をランダムに非復元で取り出すことを考えます。
まず、1回目に取り出すものは確率は\(\displaystyle \frac{1}{N}\)、そして2回目は1回目に取り出すものを戻さないので\(N-1\)個から1つなので確率は\(\displaystyle \frac{1}{N-1}\)、そして3回目は同様に考えて\(\displaystyle \frac{1}{N-2}\)、、、となります。
なので、n個取り出した時のその取り出した玉の組の確率は、
\begin{eqnarray}
\frac{1}{N} * \frac{1}{N-1} * \frac{1}{N-2} * ・・・
\end{eqnarray}
になります。

そして、非復元の場合、取り出す玉の種別などは上で考えていなく、どんなものを取っても1回目は確率\(\displaystyle \frac{1}{N}\)、2回目は\(\displaystyle \frac{1}{N-1}\)、3回目は\(\displaystyle \frac{1}{N-2}\)、、であるので、
以下のことが言えます。

\begin{eqnarray}
P(X_{1} = \theta_{1}, X_{2} = \theta_{2}, ・・・・, X_{n} = \theta_{n} )
&=& \frac{1}{N} * \frac{1}{N-1} * \frac{1}{N-2}*・・*\frac{1}{N-n+1} (定数) \\
( \theta_{j} j=1,2,...,nは任意)
\end{eqnarray}

となります。
非復元の時の確率密度関数はどんな目が出たとしても、\(n\)回取り出したのであれば、それらの出る確率はどんな\(n\)個の目の組み合わせであっても、上記になります。

この状態で\(E[\bar{X}]\)と\(V(\bar{X})\)を計算します。
\begin{eqnarray}
E[\bar{X}]
&=& \frac{1}{n} \sum_{i=1}^{n} {x_{i}P(x_{i})} \\
&=& \frac{1}{N*(N-1)*・・・*(N-n+1)}*\frac{1}{n}\sum_{i=1}^{n}
\end{eqnarray}

ここで、\(X_{1} = \theta_{1}, X_{2} = \theta_{2}, ・・・・, X_{n} = \theta_{n}\)のシータの組みは順列になるので、この組みの通りは\(N*(N-1)*・・・*(N-n+1)\)通り。

なので、非復元の時の確率密度関数は、どんな確率変数が出たとしても、1が複数出たとしても、それらは\(\displaystyle \frac{1}{N}\)や\(\displaystyle \frac{1}{N-1}\)で出たと考える必要があり（1が例えば1回目ならその1は\(\displaystyle \frac{1}{N}\)で出る。でも次1出たのが4回目なら、それが出たのは\(\displaystyle \frac{1}{N-3}\)。同じ1でも出る確率が違う）
なので、非復元の時の確率密度関数はどんな目が出たとしても、\(n\)回取り出したのであれば、それらの出る確率はどんなn個の目の組み合わせであっても、1/N * 1/N-1 *・・・になる。
例え、1が\(n\)回出ても、
2が\(\displaystyle \frac{n}{2}\)回、3が\(\displaystyle \frac{n}{4}\)回、4が\(\displaystyle \frac{n}{4}\)回出たとしても、確率は\(\displaystyle \frac{1}{N}\) * \(\displaystyle \frac{1}{N-1}\) *・・・

なので、
\begin{eqnarray}
P(X1 = \theta_{1}, X2 = \theta_{2}, ・・・・ ) &=& 1/N * 1/N-1 *・・・(定数) \\
( \theta_{j} j=1,2,...,nは任意)
\end{eqnarray}
となる。

集団からサンプリングをして
180、165、160、167、170とサンプリングが出たとします。
このデータに対して平均を取ったものが標本データの平均、つまり標本平均になります。
つまり各確率変数の値を\(\theta_{i}\)としたとき、
このデータでの標本平均\(\bar{X}\)は、\(\bar{X} = \displaystyle \frac{1}{n}\sum_{i=1}^{n} \theta_{i}\)となります。

さらにまた別の組みとして同じようにサンプリングをして、
確率変数の標本平均のデータをいくつも作っていきます。つまり\(\bar{X_{1}}\)、\(\bar{X_{2}}\)、、、\(\bar{X_{k}}\)と作成していきます。
これに対して平均を取ることで標本平均の期待値\(E[\bar{X}]\)となり、母集団での平均を求めることができます。
つまり、\(E[\bar{X}] = \displaystyle \frac{1}{k}\sum_{j=1}^{k}\bar{X_{j}} \)となります。

これを考えると、
標本平均の期待値は、独立ではないので期待値の定義の計算から、
\begin{eqnarray}
E[\bar{X}]
&=& \sum_{j=1}^{k} \bar{X_{j}} P(\theta_{j1}, \theta_{j2}, ..., \theta_{jn}) \\
&=& \sum_{j=1}^{k} \frac{1}{n}(\theta_{j1} + \theta_{j2}+...+\theta_{jn}) P(\theta_{j1}, \theta_{j2}, ..., \theta_{jn}) \\
&=& \frac{1}{N(N-1)(N-2)・・(N-n+1)} \sum_{j=1}^{k} \frac{1}{n}(\theta_{j1} + \theta_{j2}+...+\theta_{jn})
\end{eqnarray}
通常サンプリングは全ての要素を出す際、確率が等しいと仮定した上で計算します。
標本平均の確率変数は全部でN個あるデータから非復元サンプリングでn個取るので、試行は区別して、全部で\({}_NP_n\)通り。

なので、
\begin{eqnarray}
E[\bar{X}]
&=& \frac{1}{N(N-1)(N-2)・・(N-n+1)} \sum_{j=1}^{k} \frac{1}{n}N(N-1)(N-2)・・(N-n+1) \\
&=& \frac{1}{N(N-1)(N-2)・・(N-n+1)} \sum_{j=1}^{k} \frac{1}{n}N(N-1)(N-2)・・(N-n+1) \\
\end{eqnarray}

標本データ → 標本平均 → 母集団平均

分散

分散は、
\begin{eqnarray}
V(\bar{X})
&=& E[(\bar{X} - \mu)^{2}] \\
&=& E[(\frac{1}{n}(X_{1} + X_{2} +・・・+X_{n}) - \mu)^{2}] \\
&=& E[\frac{1}{n^{2}}((X_{1} + X_{2} +・・・+X_{n}) - n\mu)^{2}] \\
&=& E[\frac{1}{n^{2}}((X_{1} - \mu) + (X_{2} - \mu)+・・・+(X_{n} - \mu))^{2}] \\
&=& \frac{1}{n^{2}}E[\sum_{i=1}^{n}(X_{i} - \mu)^{2} + \sum_{i \neq j}^{}(X_{i} - \mu)(X_{j} - \mu)] \\
\end{eqnarray}

\(E[(X_{i}-\mu)(X_{j}-\mu)]\)を計算すると、これは共分散となることと、同時確率分布は、
\begin{eqnarray}
P(X_{i} = \theta_{i} , X_{j} = \theta_{j}) = \frac{1}{N(N-1)}
\end{eqnarray}
であること、
そして分散公式\(E[(X-\mu)^{2}] = {E[X]}^{2} + {E[X^{2}]}\)なので、
共分散は\( E[(X_{i} - \mu)(X_{j} - \mu)] = {E[(X_{i}-\mu)]}^{2} - {E[(X_{i}-\mu)^{2}]} \)
と表現できることから、

\begin{eqnarray}
\(E[(X_{i}-\mu)(X_{j}-\mu)]\)
&=& \frac{}
\end{eqnarray}

3. 有限で非復元の場合

1との違いは有限か無限かです。
なので、無限にするには有限\(N\)に対して\(N \rightarrow ∞\)を取ることで、無限になるので、それを

以下は超幾何分布の期待値と分散ですが、これに\(N \rightarrow ∞\)をとると、
\begin{eqnarray}
E[X] = \frac{n}{N}(1 - \frac{n}{N}\)
V[X] = \frac{n}{N}(1 - \frac{n}{N}\)
\end{eqnarray}

となります。
実はこれ二項分布と同じ期待値になります。
そもそも二項分布と超幾何分布の定義は、
・超幾何分布は、有限でそこからn個取り出す手法
・二項分布は、無限の中からn個取り出す手法

4. 有限で非復元の場合

これも同様で、2との違いは有限か無限かの違いだけです。
なので、有限に対して\(N \rightarrow ∞\)を取ることで、無限になります。

	母集団が有限	母集団が無限
復元	超幾何分布	復元・有限に対して\(n→∞\)
非復元	\(\frac{1}{n}\frac{1}{n-1}...\)	非復元・有限に対して\(n→∞\)