評価指標

A/Bテストえーびーてすと

A/Bテスト対照実験仮説検定オンライン評価モデル比較

A/Bテストについて教えて

簡単に言うとこんな感じ！

「新しいAIモデルを本番環境でテストするとき、半分のユーザーには新モデル、もう半分には旧モデルを使ってもらって比較する」手法だよ。オフラインの指標でいくら良くても、実際にビジネス成果（売上・クリック率等）が改善されるかを確認するのに欠かせない評価なんだ！

A/Bテストとは

A/Bテストとは、2つのバリアント（Aと B）をランダムに振り分けたユーザーグループで同時に試験し、ビジネス指標への影響を統計的に比較する実験手法です。

機械学習モデルの文脈では、オフライン評価（精度・F1等）で良くても本番で改善しないことがしばしばあります。A/Bテストはその最終確認として重要です。

A/Bテストの手順

1. 仮説の設定
   「新しいレコメンドモデルはクリック率を5%改善する」

2. サンプルサイズの計算
   統計的有意性を確保するのに必要なユーザー数を事前計算

3. ランダム割り当て
   ユーザーをランダムにA群（対照）・B群（処置）に振り分け

4. 実験期間の設定
   通常1〜4週間。週次変動を含むことが多い

5. 結果の統計検定
   p値・信頼区間でBがAより統計的に有意に優れているかを確認

6. 判断・展開
   有意ならB（新モデル）を全体展開

統計的検定の考え方

用語	意味
帰無仮説	AとBに差はない
p値	帰無仮説が正しいとして、観測結果以上の差が起きる確率
有意水準	p < 0.05（5%）が一般的な基準
検出力	真の差を正しく検出できる確率（通常80%以上を目標）

機械学習モデルのA/Bテスト特有の注意点

1. 全体指標とセグメント別指標
   → 全体でよくても特定ユーザー層で悪化していないか

2. 新奇性効果
   → 新しいだけで最初だけクリックされる可能性

3. 相互干渉
   → 推薦・広告など複数テストを同時実施する場合の交絡

4. ランプアップ
   → いきなり50%展開せず、1%→5%→10%→50%と段階的に

歴史と背景

1920年代：農業実験でランダム化比較実験が確立（フィッシャー）
2000年代初頭：Google・Microsoftがウェブ改善にA/Bテストを大規模活用
現在：ML開発のデプロイメントプロセスの標準手順に

A/Bテストとは

A/Bテストの手順

統計的検定の考え方

機械学習モデルのA/Bテスト特有の注意点

歴史と背景

関連用語