データと前処理

多重共線性たじゅうきょうせんせい

多重共線性共線性VIF線形回帰特徴量間相関

多重共線性について教えて

簡単に言うとこんな感じ！

複数の特徴量が互いに強く関連しあっている状態だよ。「身長と体重の両方」を使って体型を予測しようとすると、この2つが似たような情報を持ってるから、モデルがどちらが重要か混乱してしまう。特に線形モデルで深刻な問題になるんだ！

多重共線性（Multicollinearity）とは、回帰モデルに含まれる複数の特徴量が互いに強く相関している状態です。例えば「年収」と「月収×12」は完全に同一の情報であり、両方を特徴量に含めると多重共線性が発生します。

多重共線性が起きると、モデルの係数が不安定になります。「身長を1cm増やしたら体重はどう変わるか」を推定したいのに、身長と体重の両方が特徴量にあると、モデルがその係数を正確に算出できません。

特徴量間の相関係数が0.9以上なら要注意。

VIF = 1 / (1 - R²)

R²：その特徴量を他の特徴量で回帰した時の決定係数

  VIF < 5    ：問題なし
  5 ≤ VIF < 10：注意が必要
  VIF ≥ 10   ：深刻な多重共線性

深刻な影響あり
  - 線形回帰
  - ロジスティック回帰
  - 線形SVM

影響は少ない（ただし解釈は困難）
  - 決定木・ランダムフォレスト
  - 勾配ブースティング（XGBoost等）
  - ニューラルネットワーク