評価指標

ハルシネーション評価指標はるしねーしょんひょうかしひょう

ハルシネーション評価事実性評価LLM評価誤情報検出TruthfulQA

ハルシネーション評価指標について教えて

簡単に言うとこんな感じ！

LLMが「もっともらしい嘘をつく」ハルシネーション問題がどれだけ起きているかを測る指標だよ。「自信満々に間違った情報を言う」という問題はPerpexityでは測れないから、専用の評価方法が開発されてきた。TruthfulQAやRAGASがよく使われるんだ！

ハルシネーション（Hallucination）とは、LLMが事実と異なる情報を自信を持って出力する現象です。通常の流暢さや文法正確性の指標（BLEU、Perplexity等）ではハルシネーションを検出できないため、専用の評価指標が開発されています。

ベンチマーク	概要
TruthfulQA	人間が誤信しやすい817の質問に正確に答えられるかを測定
FActScore	Wikipediaに照らして事実確認スコアを算出
HalluQA	中国語での幻覚評価データセット

ハルシネーション評価の課題：
  - 「何が事実か」の真値を自動取得するのが困難
  - ドメイン知識（医療・法律等）の評価には専門家が必要
  - モデルが自分の誤りを正しく評価できない（自己評価の限界）
  - 言語・ドメインによって難易度が異なる