評価指標

ROUGE るーじゅ

ROUGE要約評価N-gram再現率ベーステキスト評価

ROUGEについて教えて

簡単に言うとこんな感じ！

自動要約の品質を評価する指標だよ。BLEUが「生成した文に参照文の言葉がどれだけ入っているか（適合率）」を見るのに対し、ROUGEは「参照文の言葉をどれだけ拾えているか（再現率）」を重視する。ChatGPTの要約品質を測るときにも使われてるんだ！

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）は、自動テキスト要約の品質を評価するための指標です。2004年にChin-Yew Linが発表しました。

BLEUと同様にN-gramの一致を見ますが、再現率（Recall）ベースという点が特徴です。「参照要約の重要な内容をどれだけ含んでいるか」を評価します。

ROUGE-Lは単語の順序を考慮した最長共通部分列（LCS）を使います。

参照：「東京はにぎやかな大都市だ」
生成：「東京は大都市でとてもにぎやかだ」

LCS = 「東京は」＋「にぎやか」＋「大都市」= 7語中5語一致
ROUGE-L再現率 = 5/7 ≈ 0.71