評価指標

A/Bテスト えーびーてすと

A/Bテスト対照実験仮説検定オンライン評価モデル比較
A/Bテストについて教えて

簡単に言うとこんな感じ!

「新しいAIモデルを本番環境でテストするとき、半分のユーザーには新モデル、もう半分には旧モデルを使ってもらって比較する」手法だよ。オフラインの指標でいくら良くても、実際にビジネス成果(売上・クリック率等)が改善されるかを確認するのに欠かせない評価なんだ!


A/Bテストとは

A/Bテストとは、2つのバリアント(Aと B)をランダムに振り分けたユーザーグループで同時に試験し、ビジネス指標への影響を統計的に比較する実験手法です。

機械学習モデルの文脈では、オフライン評価(精度・F1等)で良くても本番で改善しないことがしばしばあります。A/Bテストはその最終確認として重要です。


A/Bテストの手順

1. 仮説の設定
   「新しいレコメンドモデルはクリック率を5%改善する」

2. サンプルサイズの計算
   統計的有意性を確保するのに必要なユーザー数を事前計算

3. ランダム割り当て
   ユーザーをランダムにA群(対照)・B群(処置)に振り分け

4. 実験期間の設定
   通常1〜4週間。週次変動を含むことが多い

5. 結果の統計検定
   p値・信頼区間でBがAより統計的に有意に優れているかを確認

6. 判断・展開
   有意ならB(新モデル)を全体展開

統計的検定の考え方

用語意味
帰無仮説AとBに差はない
p値帰無仮説が正しいとして、観測結果以上の差が起きる確率
有意水準p < 0.05(5%)が一般的な基準
検出力真の差を正しく検出できる確率(通常80%以上を目標)

機械学習モデルのA/Bテスト特有の注意点

1. 全体指標とセグメント別指標
   → 全体でよくても特定ユーザー層で悪化していないか

2. 新奇性効果
   → 新しいだけで最初だけクリックされる可能性

3. 相互干渉
   → 推薦・広告など複数テストを同時実施する場合の交絡

4. ランプアップ
   → いきなり50%展開せず、1%→5%→10%→50%と段階的に

歴史と背景

  • 1920年代:農業実験でランダム化比較実験が確立(フィッシャー)
  • 2000年代初頭:Google・Microsoftがウェブ改善にA/Bテストを大規模活用
  • 現在:ML開発のデプロイメントプロセスの標準手順に

関連用語