BERTScore ばーとすこあ
BERTScore意味的類似度テキスト評価BERT埋め込み表現
BERTScoreについて教えて
BERTScoreとは
BERTScoreは、2020年に発表されたテキスト評価指標です。BLEUやROUGEが表層的な単語一致を見るのに対し、BERTScoreはBERTなどの事前学習済み言語モデルの埋め込み表現を使って意味的類似度を計算します。
計算の仕組み
1. 生成テキストと参照テキストの各トークンをBERT等でベクトル化
2. 各トークン間のコサイン類似度を計算
3. 各トークンに対して最も類似したトークンを対応付け(グリーディマッチング)
4. Precision・Recall・F1 を計算
BLEUとの比較
| 比較項目 | BLEU | BERTScore |
|---|---|---|
| 評価の基準 | 表層的な単語一致 | 意味的な類似度 |
| 同義語・言い換え | 低評価になる | 適切に評価 |
| 必要なモデル | 不要 | 事前学習済み言語モデル |
| 計算コスト | 低い | やや高い |
| 人間評価との相関 | 低い場合あり | 高い場合が多い |
実際の例
参照文:「自動車は効率的な輸送手段だ」
生成文A:「自動車は効率的な輸送手段だ」(完全一致)
生成文B:「車は便利な移動方法だ」(意味は似ている)
BLEUスコア:A ≈ 1.0, B ≈ 0.1(Bが不当に低評価)
BERTScore:A ≈ 1.0, B ≈ 0.85(Bも適切に評価)
歴史と背景
- 2020年:Zhangらが発表。BERTの成功を評価指標に応用
- 現在:要約・翻訳・対話生成の評価で人間評価との相関を評価する研究に広く使用