適合率・再現率 てきごうりつ・さいげんりつ
適合率再現率PrecisionRecallトレードオフ
適合率・再現率について教えて
適合率・再現率とは
適合率(Precision)
「陽性と予測したもののうち、実際に陽性だった割合」
Precision = TP / (TP + FP)
= 正しい陽性予測 / 全陽性予測
「予測の精度」を表します。FP(偽陽性=誤検知)を減らすことで向上します。
再現率(Recall)
「実際の陽性サンプルのうち、正しく陽性と予測できた割合」
Recall = TP / (TP + FN)
= 正しい陽性予測 / 実際の全陽性
「見逃しのなさ」を表します。FN(偽陰性=見逃し)を減らすことで向上します。
具体例で理解する
病院の胸部X線AIでがんを検出する場合(100件:がん10人、正常90人):
◆ 積極的に陽性判定するモデル(見逃しを減らしたい)
→ 全員をがんと予測
Precision = 10 / 100 = 10%(誤検知だらけ)
Recall = 10 / 10 = 100%(見逃しゼロ)
◆ 慎重に陽性判定するモデル(誤検知を減らしたい)
→ 確実な5件だけ陽性予測
Precision = 5 / 5 = 100%(誤検知なし)
Recall = 5 / 10 = 50%(半分見逃し)
トレードオフの関係
PrecisionとRecallはトレードオフの関係にあります。
閾値を下げる(陽性判定を増やす)
→ Recallが上がり、Precisionが下がる
閾値を上げる(陽性判定を減らす)
→ Precisionが上がり、Recallが下がる
使い分けの考え方
| ビジネス要件 | 重視する指標 | 理由 |
|---|---|---|
| がん検診・疾患検出 | Recall(高く) | 見逃しのほうが重大な損害 |
| スパムフィルタ | Precision(高く) | 誤検知で重要メールが消えると困る |
| 不正検知(金融) | Recall(高く) | 不正を見逃すほうが損害大 |
| 迷惑電話フィルタ | バランス | どちらも重要 |
歴史と背景
- 情報検索分野から機械学習に導入
- 1990年代:テキスト分類・情報検索評価の標準指標として定着
- 現在:分類問題の基本指標として常に使われる