評価指標

BERTScore ばーとすこあ

BERTScore意味的類似度テキスト評価BERT埋め込み表現
BERTScoreについて教えて

簡単に言うとこんな感じ!

「表現は違っても意味が似ている文を高く評価」できるテキスト評価指標だよ。BLEUROUGEが単語の一致を見るのに対し、BERTScoreはBERTの埋め込みベクトルで意味的な類似度を計算するから、言い換えや類義語を使った生成文も適切に評価できるんだ!


BERTScoreとは

BERTScoreは、2020年に発表されたテキスト評価指標です。BLEUやROUGEが表層的な単語一致を見るのに対し、BERTScoreはBERTなどの事前学習済み言語モデルの埋め込み表現を使って意味的類似度を計算します。


計算の仕組み

1. 生成テキストと参照テキストの各トークンをBERT等でベクトル化

2. 各トークン間のコサイン類似度を計算

3. 各トークンに対して最も類似したトークンを対応付け(グリーディマッチング)

4. Precision・Recall・F1 を計算

BLEUとの比較

比較項目BLEUBERTScore
評価の基準表層的な単語一致意味的な類似度
同義語・言い換え低評価になる適切に評価
必要なモデル不要事前学習済み言語モデル
計算コスト低いやや高い
人間評価との相関低い場合あり高い場合が多い

実際の例

参照文:「自動車は効率的な輸送手段だ」
生成文A:「自動車は効率的な輸送手段だ」(完全一致)
生成文B:「車は便利な移動方法だ」(意味は似ている)

BLEUスコア:A ≈ 1.0, B ≈ 0.1(Bが不当に低評価)
BERTScore:A ≈ 1.0, B ≈ 0.85(Bも適切に評価)

歴史と背景

  • 2020年:Zhangらが発表。BERTの成功を評価指標に応用
  • 現在:要約・翻訳・対話生成の評価で人間評価との相関を評価する研究に広く使用

関連用語