評価指標

ROUGE るーじゅ

ROUGE要約評価N-gram再現率ベーステキスト評価
ROUGEについて教えて

簡単に言うとこんな感じ!

自動要約の品質を評価する指標だよ。BLEUが「生成した文に参照文の言葉がどれだけ入っているか(適合率)」を見るのに対し、ROUGEは「参照文の言葉をどれだけ拾えているか(再現率)」を重視する。ChatGPTの要約品質を測るときにも使われてるんだ!


ROUGEとは

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、自動テキスト要約の品質を評価するための指標です。2004年にChin-Yew Linが発表しました。

BLEUと同様にN-gramの一致を見ますが、再現率(Recall)ベースという点が特徴です。「参照要約の重要な内容をどれだけ含んでいるか」を評価します。


主なROUGEの種類

種類測定内容
ROUGE-NN-gramの一致率(再現率ベース)
ROUGE-1ユニグラム(単語)一致率
ROUGE-2バイグラム(2語)一致率
ROUGE-L最長共通部分列(LCS)の一致率
ROUGE-Sスキップバイグラムの一致率

BLEUとROUGEの違い

比較項目BLEUROUGE
ベースPrecision(適合率)Recall(再現率)
主な用途機械翻訳テキスト要約
発表年2002年2004年
「短文優遇」あり(BrevityPenalty)なし

ROUGE-Lの特徴

ROUGE-Lは単語の順序を考慮した最長共通部分列(LCS)を使います。

参照:「東京はにぎやかな大都市だ」
生成:「東京は大都市でとてもにぎやかだ」

LCS = 「東京は」+「にぎやか」+「大都市」= 7語中5語一致
ROUGE-L再現率 = 5/7 ≈ 0.71

歴史と背景

  • 2004年:Lin が ACL ワークショップで発表
  • 2000年代〜2010年代:DUC・TAC などの要約コンペの標準評価指標に
  • 現在LLMの要約評価に引き続き使用。BERTScoreなど意味ベース指標と組み合わせ

関連用語