統計の基礎 1

統計の基礎1では、確率論と統計の関係、データの分布、回帰について説明します。統計学は確率論として整備されたものを基にして、多数のデータの取り扱いに関する方法をまとめた学問です。統計学優生学を起源としていて、優生学とそれに伴う遺伝学を研究していたカール・ピアソンによる記述統計を嚆矢として発達しました。その後、優生学者で農学者でもあったロナルド・フィッシャーによる推理統計学の構築を経て発展し、現代的には機械学習などの大本となっています。

統計学での最も基本的な要素はコイントスのような問題になります。コイントスでは表と裏しか出ません(コイントスを1度行うような試行をベルヌーイ試行と呼びます)。ベルヌーイ試行を何度も繰り返したときの、表の出る確率は二項分布と呼ばれる確率分布を示します。ベルヌーイ試行は確率的な試行ですので、コイントスの結果は平均すると表と裏が出る確率が1:1になるはずですが、実際にはばらつきが生じます。このばらつき具合を示したのが二項分布となります。世の中には2値分類される事象はたくさんあります(実際には2値分類しなくても、理解しやすいので2値に要約している場合も多くあります)。このような二値分類の結果の一部は二項分布で表すことができ、したがって二項分布を利用したシミュレーションや解析を行うことができます。このように、統計学ではデータを確率分布から理解し、事象を説明するのが一般的であり、したがって確率分布の理解が統計の理解に重要となります。データによって取る確率分布は異なりますので、最適な確率分布を選択し、適切な仮説のもとでデータを理解することが必要となります。

統計的取り扱いで最もよく使用されるものの一つに、線形回帰があります。線形回帰は、2つの量を測定し、その関係がわかっているときに、2つの量の関係を説明する最も妥当な直線形式を求める方法です。線形回帰では、ばらつきは縦に正規分布すると考えます。ばらつきが正規分布していると、上へのばらつきも下へのばらつきも同じだけ平均値から離れていることになりますので、データの取り扱いが簡単になります。このように、データの分布を仮定することで、データの取り扱いの方法が定まり、データを理解しやすくすることができます。

統計では正規分布が頻繁に出てきますが、正規分布が何なのか実際にはわかりにくいものです。正規分布は、母集団の平均と標本平均の誤差の分布を示します。ココでの母集団とは、取得したデータの基となる集団で、仮想的なものです。母集団の状態を理解すること(推定)が統計では目的となります。一方、標本とは、母集団から抜き出して観察された事象を指します。我々が観察可能なデータはすべて標本であるとします。我々は母集団を直接観察できないため、標本を抜き出して(抽出)、標本の結果から母集団を推定します。ここで、仮定として母集団に平均があり、標本を母集団から抽出し、母集団の平均と標本の平均の差を計算できるとします。この条件下で標本の抽出を無限回繰り返し、母集団の平均と標本平均の差の分布を調べると、この分布が正規分布となります。母集団の平均と標本平均の差は、母集団がどのような分布を持っていたとしても正規分布します(中央極限定理)。

正規分布は左右対称、プラスの無限大からマイナスの無限大の範囲を持つ分布で、標準偏差の範囲に68%のデータを含む特徴を持つ分布です。標準偏差の2倍(2シグマ)に95%、3倍(3シグマ)に99.7%のデータを含みます。工場などの生産管理データで3シグマがよく用いられるのは、3シグマにほとんどのデータが入るからです。直線回帰はこの正規分布の仮定の下で、平均値からの上下のばらつきを等価に評価できることを利用して計算しています。


統計について私はそろそろ初心者を脱却したぐらいですので、書いてあることの正確性が怪しい場合や、系統的な学習として適さない場合が散見されると思います。より正確で詳しい情報を得るためには、以下の資料を参考にされることをオススメいたします。

統計学入門は最もよく推奨される教科書で、基本的な統計学の要素を理解するのに最適な教科書です。
www.amazon.co.jp

基礎が押さえられたら、統計学入門のホームページを読み流すのがよいでしょう。上の教科書と比較するとかなり読みにくいのですが、統計的手法・検定法が網羅されていて、どのような手法・検定がどのような状況で使用されるのかを参照するためには有用です。このページを元にした教科書も出版されているのですが、やや初歩的な内容で終わってしまっているため、ホームページを通読するのが良いかと思います。
www.snap-tck.com

回帰についてより理解を深めるには、データ解析のための統計モデリング入門がおすすめです。通常用いられる直線回帰だけでなく、一般化線形モデル、一般化線形混合モデル(医療統計では最もよく用いられる手法の一つだと思います)、ベイズ統計学について学ぶことができます。
www.amazon.co.jp

データ解析のための統計モデリング入門をより理解しやすくするために、データ分析のための数理モデル入門を読むのもよいかと思います。統計モデルと数理モデルの関係や、数理モデルを構築する意味などをさらうことができます。
www.amazon.co.jp

統計の教科書は世の中にたくさんあるのですが、ほとんどは初級者向けですので、始めに紹介した統計学入門を読んでしまえばたくさん読む必要はないと思います。統計学では初級者向けと上級者向けの教科書が多く、間を埋めるような教科書が少ないのが悩みどころです。