統計の基礎3 分布と範囲

統計の基礎3では、データの分布とその範囲について説明します。一般的に数値の集合(データ)は様々な分布を取ります。分布を取るため、データには範囲(幅)が必ず存在します。データの範囲を示す方法について、ココでは説明します。

データの範囲を示すパラメータとして、最も一般的なものは標準偏差です。標準偏差は分散の平方根を指します。正規分布するデータだと、標準偏差1つ分の範囲に68%、2つ分に95%、3つ分に99.7%のデータを含みます。ただし、データの分布が非対称(対数正規分布やガンマ分布など)であったり、そもそも正規分布しないとき(コーシー分布など、正確にはコーシー分布には標準偏差がないので、最適な例ではありませんが…)では、標準偏差の意味は異なってきます。

したがって、単純に標準偏差を用いる前にデータの分布を確認する必要があります。データの分布を簡単に確認する方法としてヒストグラムや確率密度図の記述があります。この2つを用いることで、データが十分に多ければデータの分布をおおまかに捉えることができます。他には、Quantile(分位)を求めることもあります。Quantileはデータの下から25%、50%、75%の位置にあるデータを指します。このような分位値はデータの分布によらず範囲を反映するデータとして利用できます。この分位値をわかりやすく表記する方法が箱ひげ図(Boxplot)です。箱ひげ図では、箱の中央に中央値の横線、箱の上端が75%、下端が25%分位値を示します。縦線は4分位値から1.5IQR(中央値から4分位値までの距離の1.5倍)の長さを引いたもので、縦線から外れたものは外れ値としてプロットします。箱ひげ図を書くことでデータの分布や正規性、対称性などを判断することができます。