評価指標

Perplexity(パープレキシティ) ぱーぷれきしてぃ

Perplexityパープレキシティ言語モデル評価交差エントロピーテキスト予測
Perplexityについて教えて

簡単に言うとこんな感じ!

言語モデルが「次の単語をどれだけ迷っているか」を表す指標だよ。Perplexity=10なら「10択の中から選んでる感じ」、100なら「100択の中から選んでる感じ」で、小さいほど賢いモデル。でも最近のLLM評価では人間評価や他の指標に主役を譲りつつあるんだ!


Perplexityとは

Perplexity(パープレキシティ)は言語モデルの評価指標で、「モデルがテキストをどれだけ確信を持って予測できるか」を測定します。直訳すると「困惑度」「当惑度」です。

交差エントロピー損失の指数関数として定義されます。

Perplexity = 2^H = 2^(-1/N × Σ log₂P(w_i))

または

Perplexity = exp(交差エントロピー損失)

P(w_i):言語モデルがw_iを予測した確率
N:テキストの単語数

直感的な理解

Perplexity = 10 の場合:
  次のトークンを平均10択の中から選んでいる感覚
  → かなり自信を持って予測できている

Perplexity = 100 の場合:
  次のトークンを平均100択の中から選んでいる感覚
  → 予測の不確実性が高い

Perplexity = 1 の場合:
  常に正解を確信(完璧な予測)

代表的な言語モデルのPerplexity比較

モデル・時期データセットPerplexity
GPT-2(2019)Penn Treebank35.8
GPT-3(2020)Penn Treebank20.5
LLaMA(2023)WikiText-1033.3程度

数値が小さいほど良い。ただしデータセットが異なると比較不可。


限界と代替手段

Perplexityの限界:
  ✗ 流暢だが誤情報を含むテキストを評価できない
  ✗ 人間が使いやすいかどうかは測れない
  ✗ テストデータに含まれる内容の得意・不得意に影響される

現在のLLM評価では:
  → BLEUスコア(機械翻訳)
  → HumanEval(コード生成)
  → MT-Bench(会話品質)
  → 人間評価(Chatbot Arena等)
  を組み合わせて使う

歴史と背景

  • 1970年代:言語モデルの自動評価指標として統計的言語モデル研究で登場
  • 1990〜2000年代:N-gramモデル・音声認識での標準評価指標
  • 2010年代:ニューラル言語モデルの普及でも継続使用
  • 現在:単体での評価は減少傾向、多指標評価の一部として残る

関連用語