評価指標

ヒューマンエバリュエーションひゅーまんえばりゅえーしょん

ヒューマンエバリュエーション人間評価LLM評価アノテーション評価Chatbot Arena

ヒューマンエバリュエーションについて教えて

簡単に言うとこんな感じ！

実際に人間がAIの出力を読んで「これは良い回答か」「役に立ったか」を評価する方法だよ。自動指標（BLEUやPerplexity）では測れない「自然さ」「有用性」「安全性」を評価できる唯一の手段。LLMの時代には特に重要性が増していて、Chatbot Arenaみたいな大規模な人間評価プラットフォームも生まれてるんだ！

ヒューマンエバリュエーションとは

ヒューマンエバリュエーション（Human Evaluation）とは、機械学習モデル、特にLLMの出力品質を人間が直接評価する方法です。自動評価指標では捉えられない「実際に役に立つか」「自然に感じるか」「誤情報がないか」などを評価できます。

主な評価形式

形式	内容
Likertスケール	1〜5点などで絶対評価（「有用性：5点」など）
ペア比較（Pairwise）	AとBのどちらが良いかを選択（Chatbot Arena方式）
ランキング	複数出力を良い順に並べる
Pass/Fail	基準を満たしているか否かの2値評価
アノテーション	誤り箇所・カテゴリにタグ付け

評価する観点

LLMの代表的な評価観点：
  - 有用性（Helpfulness）：質問に正しく答えているか
  - 正確性（Accuracy）：事実に誤りはないか
  - 流暢さ（Fluency）：自然な文体か
  - 安全性（Safety）：有害・不適切な内容がないか
  - 誠実さ（Honesty）：分からないことを「分からない」と言えているか
  - 従命性（Instruction Following）：指示に従っているか

代表的なプラットフォーム

プラットフォーム	概要
Chatbot Arena（LMSYS）	匿名A/Bテスト。ユーザーが2モデルを比較評価
Scale AI / Surge AI	プロのアノテーターによる評価
Amazon Mechanical Turk	クラウドソーシング型
Prolific	品質の高いクラウド評価者のプラットフォーム

LLM-as-judgeとの関係

コストと時間がかかる人間評価の代替として、GPT-4等のLLMが評価者の役割を担う「LLM-as-judge」が研究・実用化されています。ただし「LLMは自分と似た出力を好む傾向（自己贔屓バイアス）」などの問題もあります。

歴史と背景

1950年代：チューリングテストが人間評価の先駆け
2000年代〜：機械翻訳・音声合成の品質評価で人間評価が定番化
2022〜現在：RLHF（人間の評価フィードバックを強化学習に使う）でLLM開発に直結