評価指標

PR曲線 ぴーあーるきょくせん

PR曲線Precision-Recall曲線AUC-PR不均衡データ評価分類評価
PR曲線について教えて

簡単に言うとこんな感じ!

「適合率(Precision)」と「再現率(Recall)」の関係を閾値ごとにプロットした曲線だよ。不均衡データ(陽性が超少ない)では、ROC曲線だとモデルが良く見えすぎることがあるんだけど、PR曲線なら現実に近い評価ができるんだ!


PR曲線とは

PR曲線(Precision-Recall Curve)は、分類モデルの判定閾値を変えたときの適合率(Precision)と再現率(Recall)の変化を描いたグラフです。ROC曲線と並ぶ代表的な分類評価ツールですが、特にクラス不均衡データに適しているという特徴があります。

横軸にRecall(再現率)、縦軸にPrecision(適合率)をプロットし、閾値を変化させながら曲線を描きます。曲線の下側の面積(AUC-PR)がモデルの性能を1値で表します。


ROC曲線との比較

比較項目ROC曲線PR曲線
FPR vs TPRRecall vs Precision
均等データ有効有効
不均衡データ楽観的すぎる場合ありより現実的な評価
基準線(ランダム)y=x の対角線陽性率の水平線(低い)
完璧なモデルAUC = 1.0AUC = 1.0

なぜ不均衡データにPR曲線が有効か

例:1000件のデータで陽性が10件(1%)の場合

TN(正常を正常と判定)が非常に多い
→ ROC曲線のFPR(偽陽性率)が小さく見える
→ ROC-AUCが高く見えやすい(実態よりよく見える)

PR曲線はTPとFPだけに着目するため
TN(正常の正常判定)の影響を受けない
→ 少数クラスの検出性能をより正確に評価できる

歴史と背景

  • 情報検索分野から機械学習に導入
  • 2000年代後半クラス不均衡問題の重要性が認識されPR曲線が注目
  • 現在:医療診断・異常検知・不正検知などでROC曲線の補完として標準化

使い分けの指針

均等なクラス分布    → ROC曲線
強いクラス不均衡    → PR曲線を重視
どちらも報告が理想  → 両方掲載する

関連用語