統計学と聞いて、何を思い浮かべますか?
- 統計学はよくビジネスの場面で聞いたりする!
- 理系が学ぶ学問で、何だか小難しそう
- ただの数学オタクが興味持ってそうww
とか色々思い浮かべると思います!
統計学はデータで遊ぶということが根本で、データからさまざまな情報を得るための手法を体型的に学ぶ学問のことです。
20世紀は石油の時代、21世紀はデータの時代と言われ、
そのくらいビジネスパーソンはデータを扱って、マーケティング、企画や戦略を考える際に必要なスキルとなりつつあります。
そんな統計学についてお話ししていこうと思います。
統計学で分析するまでの基本の流れ
まずデータを集めます。
そしてヒストグラム化します。
そしてヒストグラムの頂点を線で結んでみます。
そうすると、それが確率密度関数となります。その形からこの確率密度関数に近いかな?(正規分布に近いかな?)と
予想します。
そして、それを最尤法でパラメータを求めて、
これにより確率変数のとりうる値や確率などを求められるようになるわけです。
上記は簡単に説明しましたが、1つ1つ大事なことがあります。
1. データを集める。
ここはいかに母集団に近い比率で偏りのない標本/アンケート集計/サンプリングを行なって標本データを集める必要があります。
ここを間違えてしまうと、それ以降の作業は母集団と違う結果になってしまったり、想定と違うような分析結果になってしまいます。
そのため、ここのサンプリングは特に重要な作業となります。
母集団全てのデータが取れれば一番いいんですが、その中から標本を算出します。
2. ヒストグラム化
①で集めたデータをヒストグラムで表現します。
確率変数、データが1次元の値なのであれば、横軸だけのヒストグラム、
データが2次元なのであれば、x軸とy軸でのヒストグラム。
このようにグラフを視覚的に見るようにします。
3. 確率密度関数の検討
さまざまな確率密度関数を知っていないといけません。 続きを見る
そうしなければ、このヒストグラムからこのデータはこの確率密度関数に則ってサンプリングされているかもしれないと、検討をつけることができません。
確率変数は離散、連続の2種類があり、それぞれ扱える確率密度関数は違います。
1つ1つ学んでいきましょう。
わかりやすいポアソン分布
4. 最尤法の実行
サンプリングで得られた①のデータ、そして③で検討した確率密度関数を用いて最尤法を実行します。
これによって、パラメータを推定することができ、予測ができるようになります。
標本データから母集団の平均や分散の推定
上では、標本データから最尤法を用いて確率変数の確率密度関数を求めることをピックアップしました。
ただ、統計学ではそもそもの標本データから母集団の平均や分散を推定することも大事になってきます。
ここではその推定について話をしていこうと思います。
1. 標本データでの分布
2. 信頼区間
3.
まとめ
統計学はさまざまな内容が複雑に絡み合って理解したり整理したりすることが難しいです。
以下のように整理してみるといいかと思います!