評価指標

適合率・再現率てきごうりつ・さいげんりつ

適合率再現率PrecisionRecallトレードオフ

適合率・再現率について教えて

簡単に言うとこんな感じ！

「陽性と予測したもののうち本当に陽性だった割合」が適合率（Precision）、「実際の陽性のうち正しく拾えた割合」が再現率（Recall）だよ。スパムフィルタなら「誤検知を減らしたい→Precision重視」、がん検診なら「見逃しをなくしたい→Recall重視」って感じで使い分けるんだ！

適合率・再現率とは

適合率（Precision）

「陽性と予測したもののうち、実際に陽性だった割合」

Precision = TP / (TP + FP)
         = 正しい陽性予測 / 全陽性予測

「予測の精度」を表します。FP（偽陽性＝誤検知）を減らすことで向上します。

再現率（Recall）

「実際の陽性サンプルのうち、正しく陽性と予測できた割合」

Recall = TP / (TP + FN)
       = 正しい陽性予測 / 実際の全陽性

「見逃しのなさ」を表します。FN（偽陰性＝見逃し）を減らすことで向上します。

具体例で理解する

病院の胸部X線AIでがんを検出する場合（100件：がん10人、正常90人）：

◆ 積極的に陽性判定するモデル（見逃しを減らしたい）
  → 全員をがんと予測
  Precision = 10 / 100 = 10%（誤検知だらけ）
  Recall    = 10 / 10  = 100%（見逃しゼロ）

◆ 慎重に陽性判定するモデル（誤検知を減らしたい）
  → 確実な5件だけ陽性予測
  Precision = 5 / 5   = 100%（誤検知なし）
  Recall    = 5 / 10  = 50%（半分見逃し）

トレードオフの関係

PrecisionとRecallはトレードオフの関係にあります。

閾値を下げる（陽性判定を増やす）
  → Recallが上がり、Precisionが下がる

閾値を上げる（陽性判定を減らす）
  → Precisionが上がり、Recallが下がる

使い分けの考え方

ビジネス要件	重視する指標	理由
がん検診・疾患検出	Recall（高く）	見逃しのほうが重大な損害
スパムフィルタ	Precision（高く）	誤検知で重要メールが消えると困る
不正検知（金融）	Recall（高く）	不正を見逃すほうが損害大
迷惑電話フィルタ	バランス	どちらも重要

歴史と背景

情報検索分野から機械学習に導入
1990年代：テキスト分類・情報検索評価の標準指標として定着
現在：分類問題の基本指標として常に使われる