評価指標

決定係数(R²) けっていけいすう・あーるにじょう

決定係数R二乗回帰評価説明力
決定係数(R²)について教えて

簡単に言うとこんな感じ!

回帰モデルが「データのばらつきをどれだけ説明できているか」を0〜1で表した指標だよ。R²=0.8なら「モデルがデータの変動の80%を説明できてる」ってこと。完全予測でR²=1、予測が平均と同程度ならR²=0なんだ!


決定係数(R²)とは

決定係数(R²、R-squared)は、回帰モデルがターゲット変数のばらつきをどの程度説明できているかを示す指標です。

R² = 1 - SS_res / SS_tot

SS_res = Σ(y_i - ŷ_i)²  (残差平方和)
SS_tot = Σ(y_i - ȳ)²    (全変動)
ȳ:ターゲットの平均値
R²の値解釈
1.0完璧な予測(全変動を説明)
0.8〜1.0良いモデル
0.5〜0.8中程度のモデル
0.0平均値で予測するのと同等
< 0.0平均値予測より悪い(起こり得る)

R²の直感的な理解

例:家賃予測(家賃のばらつき:標準偏差 2万円)

R² = 0.9 の場合:
  モデルが家賃変動の90%を説明
  残りの10%は「間取り以外の要因」など未説明の部分

「家賃の変動に駅距離・面積・築年数が大きく影響→高いR²」
「その他の要因(騒音・隣人など)は説明できない」

調整済みR²(Adjusted R²)

特徴量を増やすとR²は必ず上がります(たとえ無関係な変数でも)。調整済みR²は特徴量数のペナルティを含む改良版です。

Adjusted R² = 1 - (1-R²)(n-1)/(n-k-1)
n:サンプル数
k:特徴量数

注意点

1. 非線形の関係にはR²だけでは不十分
   → 残差プロットも確認する

2. R²が高くても過学習の可能性がある
   → テストデータでのR²を確認

3. R²は分類問題には使わない
   → 分類ではAccuracy・F1・AUCを使用

歴史と背景

  • 19世紀:ピアソン相関係数の2乗(r²)として統計学に登場
  • 20世紀前半回帰分析の評価指標として標準化
  • 現在:scikit-learnのr2_scoreで簡単に計算可能

関連用語