PR曲線 ぴーあーるきょくせん
PR曲線Precision-Recall曲線AUC-PR不均衡データ評価分類評価
PR曲線について教えて
簡単に言うとこんな感じ!
「適合率(Precision)」と「再現率(Recall)」の関係を閾値ごとにプロットした曲線だよ。不均衡データ(陽性が超少ない)では、ROC曲線だとモデルが良く見えすぎることがあるんだけど、PR曲線なら現実に近い評価ができるんだ!
PR曲線とは
PR曲線(Precision-Recall Curve)は、分類モデルの判定閾値を変えたときの適合率(Precision)と再現率(Recall)の変化を描いたグラフです。ROC曲線と並ぶ代表的な分類評価ツールですが、特にクラス不均衡データに適しているという特徴があります。
横軸にRecall(再現率)、縦軸にPrecision(適合率)をプロットし、閾値を変化させながら曲線を描きます。曲線の下側の面積(AUC-PR)がモデルの性能を1値で表します。
ROC曲線との比較
| 比較項目 | ROC曲線 | PR曲線 |
|---|---|---|
| 軸 | FPR vs TPR | Recall vs Precision |
| 均等データ | 有効 | 有効 |
| 不均衡データ | 楽観的すぎる場合あり | より現実的な評価 |
| 基準線(ランダム) | y=x の対角線 | 陽性率の水平線(低い) |
| 完璧なモデル | AUC = 1.0 | AUC = 1.0 |
なぜ不均衡データにPR曲線が有効か
例:1000件のデータで陽性が10件(1%)の場合
TN(正常を正常と判定)が非常に多い
→ ROC曲線のFPR(偽陽性率)が小さく見える
→ ROC-AUCが高く見えやすい(実態よりよく見える)
PR曲線はTPとFPだけに着目するため
TN(正常の正常判定)の影響を受けない
→ 少数クラスの検出性能をより正確に評価できる
歴史と背景
使い分けの指針
均等なクラス分布 → ROC曲線
強いクラス不均衡 → PR曲線を重視
どちらも報告が理想 → 両方掲載する