評価指標

BLEU ぶるー

BLEU機械翻訳評価N-gramテキスト生成評価自然言語処理
BLEUについて教えて

簡単に言うとこんな感じ!

機械翻訳の品質を自動で評価するための指標だよ。「モデルの翻訳と人間の参照翻訳がどれだけ似ているか」をN-gramの一致率で計算する。0〜1の値(100点満点で表示することも多い)で、高いほど人間の翻訳に近いんだ!


BLEUとは

BLEU(Bilingual Evaluation Understudy)は、機械翻訳や文章生成モデルの出力品質を自動評価するための指標です。2002年にIBMの研究チームが発表しました。

参照翻訳(人間が作った正解翻訳)とモデルの翻訳を比較し、共通するN-gramの割合(精度)を計算します。

BLEU = brevity_penalty × exp(Σ w_n × log p_n)

p_n:n-gramの精度(1-gram、2-gram、3-gram、4-gramの一致率)
w_n:重み(通常均等:各0.25)
brevity_penalty:短い翻訳への罰則(精度稼ぎを防ぐ)

N-gramとは

文章:「私は東京に住んでいる」

1-gram(ユニグラム):[私、は、東京、に、住んで、いる]
2-gram(バイグラム):[私は、は東京、東京に、に住んで、住んでいる]
3-gram(トリグラム):[私は東京、は東京に、東京に住んで、…]

BLEUの計算例

参照翻訳:The cat sat on the mat.
機械翻訳:The cat sat on the mat.
→ BLEU = 1.0(完全一致)

参照翻訳:The cat sat on the mat.
機械翻訳:A dog lay on the floor.
→ BLEU ≈ 0.2(一部のみ一致)

BLEUの限界

BLEUの問題点:
  - 意味が同じでも表現が異なると低スコア
  - 文法の正確さを評価できない
  - 日本語など形態素が多い言語では扱いにくい
  - 人間評価との相関が低い場合がある

→ 現在はROUGE、BERTScore、人間評価と組み合わせて使う

歴史と背景

  • 2002年:Papineniらが発表。机上の自動評価を可能にした画期的な指標
  • 2000年代〜2010年代:機械翻訳の標準評価指標として広く普及
  • 現在:LLMの評価では人間評価やタスク固有の指標が主流に

関連する規格・RFC

(BLEUに関する国際標準は特になし。ACL/EMNLP等の学術会議が事実上の基準)


関連用語

  • ROUGE — 要約評価でよく使われる類似指標
  • BERTScore — 意味的類似度を考慮する改良版指標
  • 機械翻訳 — BLEUの主要な活用分野
  • Perplexity — 言語モデルの別の自動評価指標
  • LLM — BLEUで評価されることがある生成モデル
  • 自然言語処理 — BLEUが使われる分野