統計の基礎5 t検定 - xjorv’s blog

統計の基礎5では、平均値の差の検定である、t検定について説明します。t検定はどの統計の入門書にも載っている、基本的な検定の一つです。検定の基本的な要素が詰まっているので、検定を理解するためにt検定はよい教材となっているのだと思います。

t検定は、上記のように平均値の差を調べる検定です。t検定では集団が正規分布し、分散が同じであると仮定したもとで、t分布を利用して差があることを説明するものです。帰無仮説は差がない、対立仮説が差があるとなります。t分布は、標本が少ないときの母平均推定に用いられる分布で、標本平均から母平均を引いたものを標準誤差で割ったもの（t統計量や、Zパラメータなどと呼ばれます）となります。t分布は自由度をパラメータとして持つ、平均値が0、－∞～＋∞の範囲を持つ分布で、自由度が1のときにはコーシー分布、自由度が無限大に近づくと正規分布となる特徴を持ちます。この自由度とは、変数のうち、独立に選ぶことができるものの数を指し、不偏分散では標本数-1で計算します。t分布の自由度も標本数-1で計算します。

t分布は母平均の信頼区間を推定するために用いられます。標本数がnのとき、信頼区間は標本の平均値と、標本数から計算した自由度を持つt分布、信頼区間の幅（〇〇%信頼区間として示します）から計算します。Rでは簡単に信頼区間が計算できます（t.test関数を用いる）。t検定の基本的な方法は1群のt検定で、1つの群の平均値がある値と同じかどうかを検証するものです。仮説検定について説明したように、一般的に第一の過誤（α）が0.05となるように差を検定し、このαとp値を比較することで帰無仮説が棄却できるかどうか検討します。p値は（正しくはないのｄすが）平均値がある値と同値と見なせる割合に近いもので、t統計量とt分布から求めます。p値が0.05より小さければ帰無仮説を棄却できるとし、対立仮説（差がある）を採用します。0.05を境目として差がある・ないと分けることにはそれほど意味はないのですが、十分確率が低いと見なせるとして一般的には受け入れられています（理由がないので、統計の専門家ほど受け入れない傾向にあります）。

一方、p値が差がない確率として取り扱えるため、p値と同じ割合で差があるとした結論が間違いである可能性を含んでいます。このように、差がある、と結論したのに本当は差がない、という場合のような、仮説検定の間違いを過誤と呼びます。過誤には、差があると結論したが実際には差がない（偽陽性）第一の過誤と、仮説を棄却しなかったが実際には差がある（偽陰性）第二の過誤の2つがあります。一般的に第一の過誤を重視し、0.05以下であることを証明するのが仮説検定では一般的です。

仮説検定での説明と同様に、t検定においてもサンプル数が多くなるとp値が下がる傾向があります。サンプルが無限大にあれば、非常に差が小さくても有意になるのがt検定（を含む検定）の特徴です。一般的にサンプル数が増えると第一の過誤も第二の過誤も小さくなるため、第二の過誤をを調節する必要ある場合（1－第二の過誤を検出力と呼び、こちらを調整します）、最適なサンプル数を検出力に従って決定することになります。臨床研究で例数設計と呼ばれているものは、この検出力を元に第二の過誤を調整するためのサンプル数計算を指します。Rでは検出力や例数を計算してくれる関数が存在するため、簡単に例数や検出力を計算可能です。

線形回帰における傾きや切片に対してもt検定が行われることがあります。このようなt検定では、傾きや切片が0と同じと見なせるかどうかを検定しており、有意であれば傾きや切片が0ではないと結論づけます（やはりサンプル数が有意性に関与するため、サンプルが多ければ傾きがほぼなくても有意になります）。

2群の平均値の差においても（おそらくt検定を使う理由としては最も多いものです）、t検定は用いられます。基本的にはある値と群の平均値が異なるかどうか、1集団でのt検定と変わらない問題となります。ただし、上記のようにt検定はサンプル数の影響を受け、差の大きさ自体は評価しないため、差の評価として別の指標を採用することがあります。この指標を効果量（Cohen's d）と呼びます。

検定には、どちらかが大きいとわかっているときに採用される片側検定と、どちらが大きいのかわからないときに採用される両側検定の2つがあります。片側検定ではp値が小さめに計算されますが、通常のt検定ではよぼどのことがない限り、両側検定を採用するのが普通です。