ハルシネーション評価指標 はるしねーしょんひょうかしひょう
ハルシネーション評価事実性評価LLM評価誤情報検出TruthfulQA
ハルシネーション評価指標について教えて
簡単に言うとこんな感じ!
LLMが「もっともらしい嘘をつく」ハルシネーション問題がどれだけ起きているかを測る指標だよ。「自信満々に間違った情報を言う」という問題はPerpexityでは測れないから、専用の評価方法が開発されてきた。TruthfulQAやRAGASがよく使われるんだ!
ハルシネーション評価指標とは
ハルシネーション(Hallucination)とは、LLMが事実と異なる情報を自信を持って出力する現象です。通常の流暢さや文法正確性の指標(BLEU、Perplexity等)ではハルシネーションを検出できないため、専用の評価指標が開発されています。
主な評価手法
ベンチマーク評価
| ベンチマーク | 概要 |
|---|---|
| TruthfulQA | 人間が誤信しやすい817の質問に正確に答えられるかを測定 |
| FActScore | Wikipediaに照らして事実確認スコアを算出 |
| HalluQA | 中国語での幻覚評価データセット |
RAG文脈での評価(RAGAS等)
| 指標 | 内容 |
|---|---|
| Faithfulness | 生成内容が検索ドキュメントに忠実か |
| Answer Relevancy | 回答が質問に関連しているか |
| Context Recall | 必要な情報が検索で取得できているか |
自動評価の手法
| 手法 | 内容 |
|---|---|
| NLI ベース | 生成文が参照文と論理的に一致するか |
| QA ベース | 生成文から質問を作り、参照文で答え合わせ |
| LLM-as-judge | GPT-4等が事実性を評価 |
なぜ難しいのか
ハルシネーション評価の課題:
- 「何が事実か」の真値を自動取得するのが困難
- ドメイン知識(医療・法律等)の評価には専門家が必要
- モデルが自分の誤りを正しく評価できない(自己評価の限界)
- 言語・ドメインによって難易度が異なる
歴史と背景
- 2022年:TruthfulQAが発表。LLMのハルシネーション評価が本格化
- 2023年:ChatGPT普及でハルシネーション問題が社会問題化
- 2023〜現在:RAGAS・FActScoreなど自動評価フレームワークが急速に発展