統計の基礎2 基礎統計量

統計の基礎2では、基礎統計量について説明します。基礎統計量に関してはよくわからないなりに使用されている場合が多いように思います(私も長年よく分からずに使用していました)。統計的なデータの取り扱いでは必ず出てくるものとなりますので、最低限理解した上で使用し、解釈したいところです。

基礎統計量は平均や分散、標準偏差などの、数の集合に対して適用するものです。データの要約値となり、そのデータの代表値やばらつきを理解しやすくするために存在します。最も代表的な代表値は平均値です。平均値は標本の和を標本数で割ったもので、誰でも普通に使用していると思います。平均値は正規分布など、左右対称の分布を持つデータで代表値として適した値です。平均値よりは使用頻度が下がりますが、データのちょうど中央にくる値(中央値)や最も度数が多い数(最頻値)なども代表値の例となります。平均値・中央値・最頻値のうち、どれが最も数の集合の特徴を表すのかはその集合の分布により異なります。正規分布するデータであれば平均値、中央値、最頻値はほぼ同じ値になり、どれを用いても集合の特徴を掴むことができますが、歪んだ分布(対数正規分布や二項分布など)では平均値が代表値としては大きめに見積もられがちになるため、他の代表値の使用を検討した方が良い場合もあります。

分散は集合の各要素から平均値を引いて、2乗したものを合計し、標本数で割ったものを指します。ただし、標本数で普通に割ってしまうと母分散の推定値としてはやや小さく推定してしまう特徴があり、通常は不偏分散(標本数ではなく、標本数-1で割ったもの)を用います。これは自由度の考え方に従っていて、n個のデータがあるとき、n-1個のデータが決まるともう1つは目的の分散を達成するために1つの値しか取れない(自由ではない)ので、n-1にするという説明がよくなされます。この不偏分散の平方根を取ったものが標準偏差です。標準偏差は、その集合のばらつきを反映するパラメータです。同様のパラメータで標準誤差というものがあり、標準誤差は標準偏差を標本数の平方根で割るため標準偏差より小さくなります。データの見た目的に標準誤差を示す場合も多いのですが、一般的に標準誤差は平均値の推定範囲を示すパラメータとされています。結果の平均値が重要な場合は標準誤差を、ばらつきを示すことが重要な場合には標準偏差を示すのが正当な方法となります。

2つの集合の関係を示す場合に使用するのが共分散です。共分散は集合の各要素から平均値を引いて(xとすると、xi-xの平均値)、もう片方の集合の各要素から平均値を引いたもの(yとすると、yi-yの平均値)と掛け合わせたものになります。単独で使用する場合は少ないのですが、共分散をx、yの分散で割ってやると相関係数になります。相関係数は-1~1の値を取り、絶対値が1に近いほど2集合が直線に近い関係を持つことになります。相関係数が+であれば、正の相関、-であれば負の相関となります。相関係数の2乗はよくデータとして示されますが、これは決定係数と呼ばれ、回帰の良さを示すパラメータとなります。線形回帰せずに2数の関係を知りたいときには相関係数を用います。