統計の基礎14 正規性、等分散性、外れ値の検定

統計の基礎14では正規性、等分散性、外れ値の検定について説明します。

正規性と等分散性は多くのパラメトリックな手法の前提条件となっているため、検定で確かめてからパラメトリックな手法を使用し、正規性と等分散性を持たなければノンパラメトリックのような適した手法を用いる、というのがパラメトリック検定のお作法とされています。しかし、そもそもt分布などは頑強性があるので正規性がやや崩れていても使用できますし、データが多いと仮説を棄却する(正規性・等分散性がないとする)確率も高くなります。そもそも棄却できなければデータが正規性・等分散性を持つと言い切れるわけではないので、使用には注意が必要です。正規性の検定としてはShapiro-Wilk検定があり、多くの教科書で使用するよう推奨されたりしていますが、通常はヒストグラムやq-qプロットで正規性を確認するのに留めるのが良いのではないかと思います。

q-qプロットは、データの分位値と正規分布の分位値を比較して、その相関関係を調べるものです。正規分布するデータでは、相関関係が原点を通る直線に近づくという特徴があります。データが少ないと使用するのは難しくなりますが、十分なデータがある場合にはデータの正規性を確認するための有用な方法となります。Shapiro-Wilk検定は、帰無仮説として分布が正規分布していると仮定する検定のことです。帰無仮説が棄却されれば、データは正規分布しないと考える事ができます。当分散性の検定としては、Bartlettの検定や2標本分散のF検定と呼ばれる方法があります。使用頻度は正規性の確認よりは低いように思います。

データの外れ値はどのようなデータを取得した場合にも発生する可能性があり、解析に大きな影響を与えます。データを自分で取ったことのある人なら大体は、「このデータがなかったらいいのに」という状況に追いやられたことがあると思います。このような外れ値があったとき、それを外れ値と考えてよいかどうか検討するための手法が外れ値の検定です。外れ値の検定では、データが正規分布に従うとし、正規分布から大きく外れるデータを外れ値として検定する方法です。外れ値の検定にはSmirnov-Grubbs検定やThompson検定と呼ばれる方法があります。いずれにおいても、データが正規分布であるという仮定のもとで検定を行うため、正規分布しないデータでは外れ値を評価することはできません。検定により外れ値となったデータを除外して良い、というのは基本的には間違いで、外れ値となる原因がある場合もありますし、分布が正規性を持たない場合もあります。検定で有意になったからといって、安易にデータを取り除くのは推奨されません。