A/Bテスト えーびーてすと
A/Bテスト対照実験仮説検定オンライン評価モデル比較
A/Bテストについて教えて
簡単に言うとこんな感じ!
「新しいAIモデルを本番環境でテストするとき、半分のユーザーには新モデル、もう半分には旧モデルを使ってもらって比較する」手法だよ。オフラインの指標でいくら良くても、実際にビジネス成果(売上・クリック率等)が改善されるかを確認するのに欠かせない評価なんだ!
A/Bテストとは
A/Bテストとは、2つのバリアント(Aと B)をランダムに振り分けたユーザーグループで同時に試験し、ビジネス指標への影響を統計的に比較する実験手法です。
機械学習モデルの文脈では、オフライン評価(精度・F1等)で良くても本番で改善しないことがしばしばあります。A/Bテストはその最終確認として重要です。
A/Bテストの手順
1. 仮説の設定
「新しいレコメンドモデルはクリック率を5%改善する」
2. サンプルサイズの計算
統計的有意性を確保するのに必要なユーザー数を事前計算
3. ランダム割り当て
ユーザーをランダムにA群(対照)・B群(処置)に振り分け
4. 実験期間の設定
通常1〜4週間。週次変動を含むことが多い
5. 結果の統計検定
p値・信頼区間でBがAより統計的に有意に優れているかを確認
6. 判断・展開
有意ならB(新モデル)を全体展開
統計的検定の考え方
| 用語 | 意味 |
|---|---|
| 帰無仮説 | AとBに差はない |
| p値 | 帰無仮説が正しいとして、観測結果以上の差が起きる確率 |
| 有意水準 | p < 0.05(5%)が一般的な基準 |
| 検出力 | 真の差を正しく検出できる確率(通常80%以上を目標) |
機械学習モデルのA/Bテスト特有の注意点
1. 全体指標とセグメント別指標
→ 全体でよくても特定ユーザー層で悪化していないか
2. 新奇性効果
→ 新しいだけで最初だけクリックされる可能性
3. 相互干渉
→ 推薦・広告など複数テストを同時実施する場合の交絡
4. ランプアップ
→ いきなり50%展開せず、1%→5%→10%→50%と段階的に
歴史と背景
- 1920年代:農業実験でランダム化比較実験が確立(フィッシャー)
- 2000年代初頭:Google・Microsoftがウェブ改善にA/Bテストを大規模活用
- 現在:ML開発のデプロイメントプロセスの標準手順に
関連用語
- オフライン評価・オンライン評価 — A/Bテストはオンライン評価の代表例
- 精度 — オフライン指標の代表例
- 推薦システム — A/Bテストが特に重要な分野
- MLOps — A/Bテストを含む本番展開の管理