決定係数(R²) けっていけいすう・あーるにじょう
決定係数R二乗R²回帰評価説明力
決定係数(R²)について教えて
決定係数(R²)とは
決定係数(R²、R-squared)は、回帰モデルがターゲット変数のばらつきをどの程度説明できているかを示す指標です。
R² = 1 - SS_res / SS_tot
SS_res = Σ(y_i - ŷ_i)² (残差平方和)
SS_tot = Σ(y_i - ȳ)² (全変動)
ȳ:ターゲットの平均値
| R²の値 | 解釈 |
|---|---|
| 1.0 | 完璧な予測(全変動を説明) |
| 0.8〜1.0 | 良いモデル |
| 0.5〜0.8 | 中程度のモデル |
| 0.0 | 平均値で予測するのと同等 |
| < 0.0 | 平均値予測より悪い(起こり得る) |
R²の直感的な理解
例:家賃予測(家賃のばらつき:標準偏差 2万円)
R² = 0.9 の場合:
モデルが家賃変動の90%を説明
残りの10%は「間取り以外の要因」など未説明の部分
「家賃の変動に駅距離・面積・築年数が大きく影響→高いR²」
「その他の要因(騒音・隣人など)は説明できない」
調整済みR²(Adjusted R²)
特徴量を増やすとR²は必ず上がります(たとえ無関係な変数でも)。調整済みR²は特徴量数のペナルティを含む改良版です。
Adjusted R² = 1 - (1-R²)(n-1)/(n-k-1)
n:サンプル数
k:特徴量数
注意点
1. 非線形の関係にはR²だけでは不十分
→ 残差プロットも確認する
2. R²が高くても過学習の可能性がある
→ テストデータでのR²を確認
3. R²は分類問題には使わない
→ 分類ではAccuracy・F1・AUCを使用
歴史と背景
- 19世紀:ピアソン相関係数の2乗(r²)として統計学に登場
- 20世紀前半:回帰分析の評価指標として標準化
- 現在:scikit-learnの
r2_scoreで簡単に計算可能
関連用語
- 平均絶対誤差・MAE — 回帰評価の別の指標
- 平均二乗誤差・MSE・RMSE — R²と合わせて使う指標
- 線形回帰 — R²で最もよく評価されるモデル
- 過学習 — 訓練データのR²が高くても起きうる問題
- 相関分析 — R²と関連する統計的概念