統計の基礎7 一元分散分析

統計の基礎7では、3群以上の平均値の差の検定である、一元分散分析について説明します。一元分散分析では、3群以上の平均値に差があるかどうかを示す検定方法で、3群のどの群の間に差があるかどうかを示す検定ではありません。群間の差を比較する場合には、多重比較と呼ばれる別の方法が必要となります。

分散分析では、群間(3グループなら、3グループの間のばらつき)の分散と、群内(各グループ内のばらつき)の比を検定の対象とします。各群が正規分布し、分散が等しいという仮定の下で、この比がF分布を取るため、検定統計量としてF値を計算し、F分布とF値からp値の計算を行います。F分布は2つの母集団(分散分析では群間と群内にあたる)における分散の比を示す分布で、自由度を2つ(群間自由度と群内自由度)を持ちます。

一元分散分析では、各群の偏差平方和、全体の偏差平方和から分散比を計算します。群内の偏差平方和は、全体の偏差平方和から各群の偏差平方和の和(群間の偏差平方和)を引くことで計算します。群間、群内の自由度はそれぞれグループの数-1、各郡内のデータ数-1の和として求めます。この偏差平方和、自由度をまとめて記載したものが分散分析表で、不偏分散は偏差平方和を自由度で割ったもの、分散比は群内の不偏分散を群間の不偏分散で割ったものとなります。この分散比が、群間・群内の自由度の元でのF分布でどのような確率で現れるかを求めることで、分散分析におけるp値を求めます。t分布と同様に、第一の過誤が0.05を境目にして、帰無仮説(各群の平均値は等しい)を棄却します。一元分散分析もRを用いれば簡単に計算できます。

分散分析はパッと見るとなんだかよくわからないものですが(分散なのに平均の検定で、どの群の差があったときに差があると言っているのかわからない)、個々のばらつきと全体のばらつきの比較であると考えると(正しくはないと思いますが)理解しやすくなります。各群の平均値が近ければ、個々のばらつきと比較して全体のばらつきは小さくなります。一方、平均値が大きく離れていれば、個々のばらつきと比較して全体のばらつきが非常に大きくなります。この全体のばらつきの大きさを客観的に比較できる方法が分散分析です。個々のばらつきと全体のばらつきしか比較していないため、どの群がどれぐらい平均値が違うのか、という答えを得ることはできません。