統計の基礎12 重回帰

統計の基礎12では、1つの従属変数を多数の説明変数で説明する場合の線形回帰の方法である、重回帰について説明します。線形回帰では、1つの説明変数に対して1つの従属変数の関係を調べます。式で書くと、y=ax+bで、aとbを求める問題となります。正確には誤差項も求めますが、今は無視します。重回帰分析では複数の説明変数に対して1つの従属変数の関係を調べるものとなり、式で表すとy=ax1+bx2+cx3+....の形になり、それぞれa、b、c…の係数を求める問題となります。重回帰では回帰分析と同様に最小二乗法を用いた計算を行います。Rでの計算方法は直線回帰とほぼ同じです。Rで計算するとp値が出てきますが、これはそれぞれの係数が0とみなせるかどうかを示しています(検定はt検定となります)。

重回帰では、各説明変数が独立である場合に結果の信頼性が高くなります。重回帰の説明変数はあればあるだけ追加できますが、あまりにたくさん説明変数があると、傾きがほとんどない説明変数を含むことになります。このようなあまり意味のない説明変数を多数含むと、過学習という問題が起こります。したがって、適切な説明変数を選択することが重要となります。説明変数の選択方法にはAICを用いたものなどがありますが、ココでは説明を控えます。

重回帰に用いるデータでは、そもそもデータの桁や単位が大きく異なる場合が多いため、まずデータを平均0、標準偏差1の分布になるように補正します。この補正を正規化や標準化と呼び、ときには重要な説明変数を適切に選ぶために重要な過程となります。