評価指標

ハルシネーション評価指標 はるしねーしょんひょうかしひょう

ハルシネーション評価事実性評価LLM評価誤情報検出TruthfulQA
ハルシネーション評価指標について教えて

簡単に言うとこんな感じ!

LLMが「もっともらしい嘘をつく」ハルシネーション問題がどれだけ起きているかを測る指標だよ。「自信満々に間違った情報を言う」という問題はPerpexityでは測れないから、専用の評価方法が開発されてきた。TruthfulQAやRAGASがよく使われるんだ!


ハルシネーション評価指標とは

ハルシネーション(Hallucination)とは、LLMが事実と異なる情報を自信を持って出力する現象です。通常の流暢さや文法正確性の指標(BLEU、Perplexity等)ではハルシネーションを検出できないため、専用の評価指標が開発されています。


主な評価手法

ベンチマーク評価

ベンチマーク概要
TruthfulQA人間が誤信しやすい817の質問に正確に答えられるかを測定
FActScoreWikipediaに照らして事実確認スコアを算出
HalluQA中国語での幻覚評価データセット

RAG文脈での評価(RAGAS等)

指標内容
Faithfulness生成内容が検索ドキュメントに忠実か
Answer Relevancy回答が質問に関連しているか
Context Recall必要な情報が検索で取得できているか

自動評価の手法

手法内容
NLI ベース生成文が参照文と論理的に一致するか
QA ベース生成文から質問を作り、参照文で答え合わせ
LLM-as-judgeGPT-4等が事実性を評価

なぜ難しいのか

ハルシネーション評価の課題:
  - 「何が事実か」の真値を自動取得するのが困難
  - ドメイン知識(医療・法律等)の評価には専門家が必要
  - モデルが自分の誤りを正しく評価できない(自己評価の限界)
  - 言語・ドメインによって難易度が異なる

歴史と背景

  • 2022年:TruthfulQAが発表。LLMのハルシネーション評価が本格化
  • 2023年:ChatGPT普及でハルシネーション問題が社会問題化
  • 2023〜現在:RAGAS・FActScoreなど自動評価フレームワークが急速に発展

関連用語

  • ハルシネーション — 評価対象の現象
  • RAG — ハルシネーション低減の代表的アーキテクチャ
  • RAGASRAG向けハルシネーション評価フレームワーク
  • LLM — ハルシネーションが発生するモデル
  • グラウンディング — ハルシネーションを防ぐ技術アプローチ
  • TruthfulQA — 代表的なハルシネーション評価ベンチマーク