評価指標

Perplexity（パープレキシティ）ぱーぷれきしてぃ

Perplexityパープレキシティ言語モデル評価交差エントロピーテキスト予測

Perplexityについて教えて

簡単に言うとこんな感じ！

言語モデルが「次の単語をどれだけ迷っているか」を表す指標だよ。Perplexity=10なら「10択の中から選んでる感じ」、100なら「100択の中から選んでる感じ」で、小さいほど賢いモデル。でも最近のLLM評価では人間評価や他の指標に主役を譲りつつあるんだ！

Perplexityとは

Perplexity（パープレキシティ）は言語モデルの評価指標で、「モデルがテキストをどれだけ確信を持って予測できるか」を測定します。直訳すると「困惑度」「当惑度」です。

交差エントロピー損失の指数関数として定義されます。

Perplexity = 2^H = 2^(-1/N × Σ log₂P(w_i))

または

Perplexity = exp(交差エントロピー損失)

P(w_i)：言語モデルがw_iを予測した確率
N：テキストの単語数

直感的な理解

Perplexity = 10 の場合：
  次のトークンを平均10択の中から選んでいる感覚
  → かなり自信を持って予測できている

Perplexity = 100 の場合：
  次のトークンを平均100択の中から選んでいる感覚
  → 予測の不確実性が高い

Perplexity = 1 の場合：
  常に正解を確信（完璧な予測）

代表的な言語モデルのPerplexity比較

モデル・時期	データセット	Perplexity
GPT-2（2019）	Penn Treebank	35.8
GPT-3（2020）	Penn Treebank	20.5
LLaMA（2023）	WikiText-103	3.3程度

数値が小さいほど良い。ただしデータセットが異なると比較不可。

限界と代替手段

Perplexityの限界：
  ✗ 流暢だが誤情報を含むテキストを評価できない
  ✗ 人間が使いやすいかどうかは測れない
  ✗ テストデータに含まれる内容の得意・不得意に影響される

現在のLLM評価では：
  → BLEUスコア（機械翻訳）
  → HumanEval（コード生成）
  → MT-Bench（会話品質）
  → 人間評価（Chatbot Arena等）
  を組み合わせて使う

歴史と背景

1970年代：言語モデルの自動評価指標として統計的言語モデル研究で登場
1990〜2000年代：N-gramモデル・音声認識での標準評価指標
2010年代：ニューラル言語モデルの普及でも継続使用
現在：単体での評価は減少傾向、多指標評価の一部として残る

Perplexityとは

直感的な理解

代表的な言語モデルのPerplexity比較

限界と代替手段

歴史と背景

関連用語