オフライン評価・オンライン評価 おふらいんひょうか・おんらいんひょうか
オフライン評価オンライン評価A/Bテストモデル評価本番評価
オフライン評価・オンライン評価について教えて
簡単に言うとこんな感じ!
モデルを本番に出す前に「テストデータで評価」するのがオフライン評価、実際のユーザーに使ってもらいながら評価するのがオンライン評価だよ。オフラインで良くてもオンラインで改善しないことが多く、この「オフライン-オンラインの乖離」がAI開発の永遠の課題なんだ!
オフライン評価・オンライン評価とは
オフライン評価
実際のユーザーに見せる前に、過去のデータやテストセットを使ってモデルを評価する方法です。
- 特徴:コストゼロ、高速、繰り返し可能
- 指標例:精度、F1、AUC、RMSE、BLEU等
- 限界:ユーザー行動の変化、文脈の違い、本番との乖離
オンライン評価
実際のユーザーにモデルを使わせながら、ビジネス指標やユーザー行動を評価する方法です。
- 特徴:最も信頼性が高い、コストと時間がかかる
- 指標例:CTR、CVR、滞在時間、売上、満足度
- 代表的手法:A/Bテスト、マルチアームバンディット
乖離が起きる原因
オフラインは良いのにオンラインで改善しない主な理由:
1. 分布のシフト
テストデータと本番データの分布が異なる
2. 反実仮想問題(Counterfactual Evaluation)
過去データには「当時モデルが選ばなかった選択肢」が含まれない
3. ユーザー行動の複雑さ
精度が高くても「この推薦、興味ない」と感じる
4. 新奇性や慣れの効果
新しいUIやモデルに一時的に興味を持つ
評価方式の比較
| 観点 | オフライン評価 | オンライン評価(A/Bテスト) |
|---|---|---|
| 速度 | 高速 | 遅い(数週間) |
| コスト | 低い | 高い(機会コスト含む) |
| 信頼性 | 中程度 | 高い |
| 繰り返し性 | 高い | 低い |
| ビジネス指標 | 間接的 | 直接測定 |
歴史と背景
- 2000年代初頭:Googleがオンライン評価(A/Bテスト)を体系化
- 2010年代:機械学習モデルの本番展開でオフライン-オンライン乖離が重要課題に
- 現在:MLOpsの文脈で両方の評価が開発フローに組み込まれる