評価指標

BERTScore ばーとすこあ

BERTScore意味的類似度テキスト評価BERT埋め込み表現

BERTScoreについて教えて

簡単に言うとこんな感じ！

「表現は違っても意味が似ている文を高く評価」できるテキスト評価指標だよ。BLEUやROUGEが単語の一致を見るのに対し、BERTScoreはBERTの埋め込みベクトルで意味的な類似度を計算するから、言い換えや類義語を使った生成文も適切に評価できるんだ！

BERTScoreは、2020年に発表されたテキスト評価指標です。BLEUやROUGEが表層的な単語一致を見るのに対し、BERTScoreはBERTなどの事前学習済み言語モデルの埋め込み表現を使って意味的類似度を計算します。

1. 生成テキストと参照テキストの各トークンをBERT等でベクトル化

2. 各トークン間のコサイン類似度を計算

3. 各トークンに対して最も類似したトークンを対応付け（グリーディマッチング）

4. Precision・Recall・F1 を計算

参照文：「自動車は効率的な輸送手段だ」
生成文A：「自動車は効率的な輸送手段だ」（完全一致）
生成文B：「車は便利な移動方法だ」（意味は似ている）

BLEUスコア：A ≈ 1.0, B ≈ 0.1（Bが不当に低評価）
BERTScore：A ≈ 1.0, B ≈ 0.85（Bも適切に評価）