統計の基礎6 カイ2乗分布とカイ二乗検定

統計の基礎6では、クロス集計表やカテゴリカル・データに用いられるカイ2乗検定について説明します。カイ二乗検定はカテゴリカル・データの比を調べるための検定で、比がある値と同じであることを確かめる適合度の検定と比がある値と同じであることを確かめる独立性の検定からなります。カテゴリカル・データとは、クロス集計表で表されるような、2値分類的なデータを指します。クロス集計表では、2つ以上の比率があるため、2つの間を比較したり、ある値(期待数)と比率(観測数)が同じであるかどうか検討したりする必要がある場合があります。このような観測数とき対数の差の分布を調べると、カイ二乗分布となります。

カイ2乗分布は0から無限大までの連続分布で、期待値を一つ持ちます。この期待値が分布の平均値となります。適合度の検定では、比率がある値と同じかどうか調べます。独立性の検定では、2グループ間での比率に差があるかを調べます。いずれもRのchisq.testで計算可能です。