【統計学】統計学の基本

【統計学】基本原理

2021年6月12日 2021年7月10日

統計学と聞いて、何を思い浮かべますか？

統計学はよくビジネスの場面で聞いたりする！
理系が学ぶ学問で、何だか小難しそう
ただの数学オタクが興味持ってそうww

とか色々思い浮かべると思います！
統計学はデータで遊ぶということが根本で、データからさまざまな情報を得るための手法を体型的に学ぶ学問のことです。
20世紀は石油の時代、21世紀はデータの時代と言われ、
そのくらいビジネスパーソンはデータを扱って、マーケティング、企画や戦略を考える際に必要なスキルとなりつつあります。

そんな統計学についてお話ししていこうと思います。

統計学で分析するまでの基本の流れ

まずデータを集めます。
そしてヒストグラム化します。
そしてヒストグラムの頂点を線で結んでみます。
そうすると、それが確率密度関数となります。その形からこの確率密度関数に近いかな?(正規分布に近いかな？)と
予想します。
そして、それを最尤法でパラメータを求めて、
これにより確率変数のとりうる値や確率などを求められるようになるわけです。

上記は簡単に説明しましたが、1つ1つ大事なことがあります。

1. データを集める。

ここはいかに母集団に近い比率で偏りのない標本/アンケート集計/サンプリングを行なって標本データを集める必要があります。
ここを間違えてしまうと、それ以降の作業は母集団と違う結果になってしまったり、想定と違うような分析結果になってしまいます。
そのため、ここのサンプリングは特に重要な作業となります。
母集団全てのデータが取れれば一番いいんですが、その中から標本を算出します。

2. ヒストグラム化

①で集めたデータをヒストグラムで表現します。
確率変数、データが1次元の値なのであれば、横軸だけのヒストグラム、
データが2次元なのであれば、x軸とy軸でのヒストグラム。
このようにグラフを視覚的に見るようにします。

3. 確率密度関数の検討

さまざまな確率密度関数を知っていないといけません。
そうしなければ、このヒストグラムからこのデータはこの確率密度関数に則ってサンプリングされているかもしれないと、検討をつけることができません。
確率変数は離散、連続の2種類があり、それぞれ扱える確率密度関数は違います。
1つ1つ学んでいきましょう。

: わかりやすいポアソン分布

続きを見る

4. 最尤法の実行

サンプリングで得られた①のデータ、そして③で検討した確率密度関数を用いて最尤法を実行します。
これによって、パラメータを推定することができ、予測ができるようになります。

標本データから母集団の平均や分散の推定

上では、標本データから最尤法を用いて確率変数の確率密度関数を求めることをピックアップしました。

ただ、統計学ではそもそもの標本データから母集団の平均や分散を推定することも大事になってきます。
ここではその推定について話をしていこうと思います。

1. 標本データでの分布

2. 信頼区間

3.

まとめ

統計学はさまざまな内容が複雑に絡み合って理解したり整理したりすることが難しいです。
以下のように整理してみるといいかと思います！

-統計学
-統計学

: ポアソン過程

\begin{eqnarray} P(X_{0}) &=& 1 \\ P(X_{x+h} -X_{t} = 1) &=& 1 \\ P(X_{x+h} -X_{t} \ ...

: わかりやすいARモデルとMAモデル

そもそもの目的はこのy_{t}を予測することで、\alphaを求めることです。これにより時系列データがどんなモデルによって生成されているのかを掴むことで、今後の数値の予測ができるようになるわけです。 ...

: わかりやすい主成分分析

ここでは主成分分析の仕組みやメリット、そして主成分分析でできることや、固有値、寄与率、主成分得点などについて話していきます。 Contents1 主成分分析とは2 分散を最大化3 分散の最大化3. ...

: わかりやすい分散分析

分散分析とは、3つ以上のグループ間に有意差があるかないかを分析するための手法になります。普通の検定では帰無仮説を基準にして対立仮説がこのくらい離れると有意性であったり、2つの群の差を見て有意性あるか ...

PREV: 【GCP】BigQueryの定数やユーザー定義関数（UDF）
NEXT: WordPressでのLatexの使い方