評価指標

ヒューマンエバリュエーション ひゅーまんえばりゅえーしょん

ヒューマンエバリュエーション人間評価LLM評価アノテーション評価Chatbot Arena
ヒューマンエバリュエーションについて教えて

簡単に言うとこんな感じ!

実際に人間がAIの出力を読んで「これは良い回答か」「役に立ったか」を評価する方法だよ。自動指標(BLEUやPerplexity)では測れない「自然さ」「有用性」「安全性」を評価できる唯一の手段。LLMの時代には特に重要性が増していて、Chatbot Arenaみたいな大規模な人間評価プラットフォームも生まれてるんだ!


ヒューマンエバリュエーションとは

ヒューマンエバリュエーション(Human Evaluation)とは、機械学習モデル、特にLLMの出力品質を人間が直接評価する方法です。自動評価指標では捉えられない「実際に役に立つか」「自然に感じるか」「誤情報がないか」などを評価できます。


主な評価形式

形式内容
Likertスケール1〜5点などで絶対評価(「有用性:5点」など)
ペア比較(Pairwise)AとBのどちらが良いかを選択(Chatbot Arena方式)
ランキング複数出力を良い順に並べる
Pass/Fail基準を満たしているか否かの2値評価
アノテーション誤り箇所・カテゴリにタグ付け

評価する観点

LLMの代表的な評価観点:
  - 有用性(Helpfulness):質問に正しく答えているか
  - 正確性(Accuracy):事実に誤りはないか
  - 流暢さ(Fluency):自然な文体か
  - 安全性(Safety):有害・不適切な内容がないか
  - 誠実さ(Honesty):分からないことを「分からない」と言えているか
  - 従命性(Instruction Following):指示に従っているか

代表的なプラットフォーム

プラットフォーム概要
Chatbot Arena(LMSYS)匿名A/Bテスト。ユーザーが2モデルを比較評価
Scale AI / Surge AIプロのアノテーターによる評価
Amazon Mechanical Turkクラウドソーシング型
Prolific品質の高いクラウド評価者のプラットフォーム

LLM-as-judgeとの関係

コストと時間がかかる人間評価の代替として、GPT-4等のLLMが評価者の役割を担う「LLM-as-judge」が研究・実用化されています。ただし「LLMは自分と似た出力を好む傾向(自己贔屓バイアス)」などの問題もあります。


歴史と背景

  • 1950年代:チューリングテストが人間評価の先駆け
  • 2000年代〜:機械翻訳・音声合成の品質評価で人間評価が定番化
  • 2022〜現在RLHF(人間の評価フィードバックを強化学習に使う)でLLM開発に直結

関連用語