ROUGE るーじゅ
ROUGE要約評価N-gram再現率ベーステキスト評価
ROUGEについて教えて
簡単に言うとこんな感じ!
自動要約の品質を評価する指標だよ。BLEUが「生成した文に参照文の言葉がどれだけ入っているか(適合率)」を見るのに対し、ROUGEは「参照文の言葉をどれだけ拾えているか(再現率)」を重視する。ChatGPTの要約品質を測るときにも使われてるんだ!
ROUGEとは
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、自動テキスト要約の品質を評価するための指標です。2004年にChin-Yew Linが発表しました。
BLEUと同様にN-gramの一致を見ますが、再現率(Recall)ベースという点が特徴です。「参照要約の重要な内容をどれだけ含んでいるか」を評価します。
主なROUGEの種類
| 種類 | 測定内容 |
|---|---|
| ROUGE-N | N-gramの一致率(再現率ベース) |
| ROUGE-1 | ユニグラム(単語)一致率 |
| ROUGE-2 | バイグラム(2語)一致率 |
| ROUGE-L | 最長共通部分列(LCS)の一致率 |
| ROUGE-S | スキップバイグラムの一致率 |
BLEUとROUGEの違い
| 比較項目 | BLEU | ROUGE |
|---|---|---|
| ベース | Precision(適合率) | Recall(再現率) |
| 主な用途 | 機械翻訳 | テキスト要約 |
| 発表年 | 2002年 | 2004年 |
| 「短文優遇」 | あり(BrevityPenalty) | なし |
ROUGE-Lの特徴
ROUGE-Lは単語の順序を考慮した最長共通部分列(LCS)を使います。
参照:「東京はにぎやかな大都市だ」
生成:「東京は大都市でとてもにぎやかだ」
LCS = 「東京は」+「にぎやか」+「大都市」= 7語中5語一致
ROUGE-L再現率 = 5/7 ≈ 0.71
歴史と背景
- 2004年:Lin が ACL ワークショップで発表
- 2000年代〜2010年代:DUC・TAC などの要約コンペの標準評価指標に
- 現在:LLMの要約評価に引き続き使用。BERTScoreなど意味ベース指標と組み合わせ