評価指標

オフライン評価・オンライン評価 おふらいんひょうか・おんらいんひょうか

オフライン評価オンライン評価A/Bテストモデル評価本番評価
オフライン評価・オンライン評価について教えて

簡単に言うとこんな感じ!

モデルを本番に出す前に「テストデータで評価」するのがオフライン評価、実際のユーザーに使ってもらいながら評価するのがオンライン評価だよ。オフラインで良くてもオンラインで改善しないことが多く、この「オフライン-オンラインの乖離」がAI開発の永遠の課題なんだ!


オフライン評価・オンライン評価とは

オフライン評価

実際のユーザーに見せる前に、過去のデータやテストセットを使ってモデルを評価する方法です。

  • 特徴:コストゼロ、高速、繰り返し可能
  • 指標例:精度、F1、AUC、RMSE、BLEU
  • 限界:ユーザー行動の変化、文脈の違い、本番との乖離

オンライン評価

実際のユーザーにモデルを使わせながら、ビジネス指標やユーザー行動を評価する方法です。

  • 特徴:最も信頼性が高い、コストと時間がかかる
  • 指標例:CTR、CVR、滞在時間、売上、満足度
  • 代表的手法A/Bテスト、マルチアームバンディット

乖離が起きる原因

オフラインは良いのにオンラインで改善しない主な理由:

1. 分布のシフト
   テストデータと本番データの分布が異なる

2. 反実仮想問題(Counterfactual Evaluation)
   過去データには「当時モデルが選ばなかった選択肢」が含まれない

3. ユーザー行動の複雑さ
   精度が高くても「この推薦、興味ない」と感じる

4. 新奇性や慣れの効果
   新しいUIやモデルに一時的に興味を持つ

評価方式の比較

観点オフライン評価オンライン評価(A/Bテスト)
速度高速遅い(数週間)
コスト低い高い(機会コスト含む)
信頼性中程度高い
繰り返し性高い低い
ビジネス指標間接的直接測定

歴史と背景

  • 2000年代初頭:Googleがオンライン評価(A/Bテスト)を体系化
  • 2010年代機械学習モデルの本番展開でオフライン-オンライン乖離が重要課題に
  • 現在MLOpsの文脈で両方の評価が開発フローに組み込まれる

関連用語