Perplexity(パープレキシティ) ぱーぷれきしてぃ
Perplexityパープレキシティ言語モデル評価交差エントロピーテキスト予測
Perplexityについて教えて
Perplexityとは
Perplexity(パープレキシティ)は言語モデルの評価指標で、「モデルがテキストをどれだけ確信を持って予測できるか」を測定します。直訳すると「困惑度」「当惑度」です。
交差エントロピー損失の指数関数として定義されます。
Perplexity = 2^H = 2^(-1/N × Σ log₂P(w_i))
または
Perplexity = exp(交差エントロピー損失)
P(w_i):言語モデルがw_iを予測した確率
N:テキストの単語数
直感的な理解
Perplexity = 10 の場合:
次のトークンを平均10択の中から選んでいる感覚
→ かなり自信を持って予測できている
Perplexity = 100 の場合:
次のトークンを平均100択の中から選んでいる感覚
→ 予測の不確実性が高い
Perplexity = 1 の場合:
常に正解を確信(完璧な予測)
代表的な言語モデルのPerplexity比較
| モデル・時期 | データセット | Perplexity |
|---|---|---|
| GPT-2(2019) | Penn Treebank | 35.8 |
| GPT-3(2020) | Penn Treebank | 20.5 |
| LLaMA(2023) | WikiText-103 | 3.3程度 |
数値が小さいほど良い。ただしデータセットが異なると比較不可。
限界と代替手段
Perplexityの限界:
✗ 流暢だが誤情報を含むテキストを評価できない
✗ 人間が使いやすいかどうかは測れない
✗ テストデータに含まれる内容の得意・不得意に影響される
現在のLLM評価では:
→ BLEUスコア(機械翻訳)
→ HumanEval(コード生成)
→ MT-Bench(会話品質)
→ 人間評価(Chatbot Arena等)
を組み合わせて使う
歴史と背景
- 1970年代:言語モデルの自動評価指標として統計的言語モデル研究で登場
- 1990〜2000年代:N-gramモデル・音声認識での標準評価指標
- 2010年代:ニューラル言語モデルの普及でも継続使用
- 現在:単体での評価は減少傾向、多指標評価の一部として残る
関連用語
- 交差エントロピー損失 — Perplexityの計算基盤
- LLM — Perplexityで評価される大規模言語モデル
- 事前学習 — Perplexityを最小化する学習プロセス
- BLEU — テキスト生成の別の評価指標
- ハルシネーション評価指標 — Perplexityが捉えられない問題の指標
- トークン — Perplexityの計算単位