評価指標

オフライン評価・オンライン評価おふらいんひょうか・おんらいんひょうか

オフライン評価オンライン評価A/Bテストモデル評価本番評価

オフライン評価・オンライン評価について教えて

簡単に言うとこんな感じ！

モデルを本番に出す前に「テストデータで評価」するのがオフライン評価、実際のユーザーに使ってもらいながら評価するのがオンライン評価だよ。オフラインで良くてもオンラインで改善しないことが多く、この「オフライン-オンラインの乖離」がAI開発の永遠の課題なんだ！

オフライン評価・オンライン評価とは

オフライン評価

実際のユーザーに見せる前に、過去のデータやテストセットを使ってモデルを評価する方法です。

特徴：コストゼロ、高速、繰り返し可能
指標例：精度、F1、AUC、RMSE、BLEU等
限界：ユーザー行動の変化、文脈の違い、本番との乖離

オンライン評価

実際のユーザーにモデルを使わせながら、ビジネス指標やユーザー行動を評価する方法です。

特徴：最も信頼性が高い、コストと時間がかかる
指標例：CTR、CVR、滞在時間、売上、満足度
代表的手法：A/Bテスト、マルチアームバンディット

乖離が起きる原因

オフラインは良いのにオンラインで改善しない主な理由：

1. 分布のシフト
   テストデータと本番データの分布が異なる

2. 反実仮想問題（Counterfactual Evaluation）
   過去データには「当時モデルが選ばなかった選択肢」が含まれない

3. ユーザー行動の複雑さ
   精度が高くても「この推薦、興味ない」と感じる

4. 新奇性や慣れの効果
   新しいUIやモデルに一時的に興味を持つ

評価方式の比較

観点	オフライン評価	オンライン評価（A/Bテスト）
速度	高速	遅い（数週間）
コスト	低い	高い（機会コスト含む）
信頼性	中程度	高い
繰り返し性	高い	低い
ビジネス指標	間接的	直接測定

歴史と背景

2000年代初頭：Googleがオンライン評価（A/Bテスト）を体系化
2010年代：機械学習モデルの本番展開でオフライン-オンライン乖離が重要課題に
現在：MLOpsの文脈で両方の評価が開発フローに組み込まれる