ヒューマンエバリュエーション ひゅーまんえばりゅえーしょん
ヒューマンエバリュエーション人間評価LLM評価アノテーション評価Chatbot Arena
ヒューマンエバリュエーションについて教えて
ヒューマンエバリュエーションとは
ヒューマンエバリュエーション(Human Evaluation)とは、機械学習モデル、特にLLMの出力品質を人間が直接評価する方法です。自動評価指標では捉えられない「実際に役に立つか」「自然に感じるか」「誤情報がないか」などを評価できます。
主な評価形式
| 形式 | 内容 |
|---|---|
| Likertスケール | 1〜5点などで絶対評価(「有用性:5点」など) |
| ペア比較(Pairwise) | AとBのどちらが良いかを選択(Chatbot Arena方式) |
| ランキング | 複数出力を良い順に並べる |
| Pass/Fail | 基準を満たしているか否かの2値評価 |
| アノテーション | 誤り箇所・カテゴリにタグ付け |
評価する観点
LLMの代表的な評価観点:
- 有用性(Helpfulness):質問に正しく答えているか
- 正確性(Accuracy):事実に誤りはないか
- 流暢さ(Fluency):自然な文体か
- 安全性(Safety):有害・不適切な内容がないか
- 誠実さ(Honesty):分からないことを「分からない」と言えているか
- 従命性(Instruction Following):指示に従っているか
代表的なプラットフォーム
| プラットフォーム | 概要 |
|---|---|
| Chatbot Arena(LMSYS) | 匿名A/Bテスト。ユーザーが2モデルを比較評価 |
| Scale AI / Surge AI | プロのアノテーターによる評価 |
| Amazon Mechanical Turk | クラウドソーシング型 |
| Prolific | 品質の高いクラウド評価者のプラットフォーム |
LLM-as-judgeとの関係
コストと時間がかかる人間評価の代替として、GPT-4等のLLMが評価者の役割を担う「LLM-as-judge」が研究・実用化されています。ただし「LLMは自分と似た出力を好む傾向(自己贔屓バイアス)」などの問題もあります。
歴史と背景
- 1950年代:チューリングテストが人間評価の先駆け
- 2000年代〜:機械翻訳・音声合成の品質評価で人間評価が定番化
- 2022〜現在:RLHF(人間の評価フィードバックを強化学習に使う)でLLM開発に直結
関連用語
- RLHF — 人間評価をAI学習に組み込む手法
- A/Bテスト — ユーザー行動を使った大規模オンライン評価
- データラベリング — 人間評価の実施方法
- LLM — ヒューマンエバリュエーションの主な対象
- ハルシネーション評価指標 — 人間評価が特に重要な評価観点