【統計学】統計学の基本

【統計学】基本原理

2021年6月12日 2021年7月10日

統計学と聞いて、何を思い浮かべますか？

統計学はよくビジネスの場面で聞いたりする！
理系が学ぶ学問で、何だか小難しそう
ただの数学オタクが興味持ってそうww

とか色々思い浮かべると思います！
統計学はデータで遊ぶということが根本で、データからさまざまな情報を得るための手法を体型的に学ぶ学問のことです。
20世紀は石油の時代、21世紀はデータの時代と言われ、
そのくらいビジネスパーソンはデータを扱って、マーケティング、企画や戦略を考える際に必要なスキルとなりつつあります。

そんな統計学についてお話ししていこうと思います。

統計学で分析するまでの基本の流れ

まずデータを集めます。
そしてヒストグラム化します。
そしてヒストグラムの頂点を線で結んでみます。
そうすると、それが確率密度関数となります。その形からこの確率密度関数に近いかな?(正規分布に近いかな？)と
予想します。
そして、それを最尤法でパラメータを求めて、
これにより確率変数のとりうる値や確率などを求められるようになるわけです。

上記は簡単に説明しましたが、1つ1つ大事なことがあります。

1. データを集める。

ここはいかに母集団に近い比率で偏りのない標本/アンケート集計/サンプリングを行なって標本データを集める必要があります。
ここを間違えてしまうと、それ以降の作業は母集団と違う結果になってしまったり、想定と違うような分析結果になってしまいます。
そのため、ここのサンプリングは特に重要な作業となります。
母集団全てのデータが取れれば一番いいんですが、その中から標本を算出します。

2. ヒストグラム化

①で集めたデータをヒストグラムで表現します。
確率変数、データが1次元の値なのであれば、横軸だけのヒストグラム、
データが2次元なのであれば、x軸とy軸でのヒストグラム。
このようにグラフを視覚的に見るようにします。

3. 確率密度関数の検討

さまざまな確率密度関数を知っていないといけません。
そうしなければ、このヒストグラムからこのデータはこの確率密度関数に則ってサンプリングされているかもしれないと、検討をつけることができません。
確率変数は離散、連続の2種類があり、それぞれ扱える確率密度関数は違います。
1つ1つ学んでいきましょう。

: わかりやすいポアソン分布

続きを見る

4. 最尤法の実行

サンプリングで得られた①のデータ、そして③で検討した確率密度関数を用いて最尤法を実行します。
これによって、パラメータを推定することができ、予測ができるようになります。

標本データから母集団の平均や分散の推定

上では、標本データから最尤法を用いて確率変数の確率密度関数を求めることをピックアップしました。

ただ、統計学ではそもそもの標本データから母集団の平均や分散を推定することも大事になってきます。
ここではその推定について話をしていこうと思います。

1. 標本データでの分布

2. 信頼区間

3.

まとめ

統計学はさまざまな内容が複雑に絡み合って理解したり整理したりすることが難しいです。
以下のように整理してみるといいかと思います！

-統計学
-統計学

: ネイマンピアソンの基本定理・検定

下では仮説検定とネイマンピアソンの基本定理について解説をしました。わかりやすい仮説検定とネイマンピアソンの定理ここではもう少し具体的に話していこうと思います。 Contents0.1 ...

: 切断正規分布・トービットモデル

正規分布に従うけど、ある値以降のもののみをピックアップして、そのデータだけを用いて新しい分布を構築したい場合があるとする。これを切断正規分布と言います。例えばですが、人の資産の分布を考えると、プ ...

: 回帰分析と分散分析の関係性について

回帰分析と分散分析の関係はとても近いです！回帰分析ではあるデータ（目的変数）が取れて、それに対して別の変数（説明変数）でどのくらいの影響があるかを示すものです。式で表すと、\(y = \beta ...

: わかりやすい多重共線性

統計学の回帰分析などでたまに見る「多重共線性」。どう言ったものかについてここでは説明していこうと思います。多重共線性とは多重共線性（マルチコ：multi-colinearlity（ ...

PREV: 【GCP】BigQueryの定数やユーザー定義関数（UDF）
NEXT: WordPressでのLatexの使い方