AI・機械学習

ナイーブベイズ ないーぶべいず

ベイズの定理確率的分類スパムフィルターテキスト分類条件付き確率生成モデル
ナイーブベイズについて教えて

簡単に言うとこんな感じ!

「この単語が出てきたらスパムっぽい確率は○%」を掛け合わせていくシンプルな分類手法だよ!数学的には「ナイーブ(単純)」な仮定があるんだけど、メール振り分けや文章分類では驚くほどちゃんと動くんだ。速くて軽くて、少ないデータでもOKなのが強みだよ!


ナイーブベイズとは

ナイーブベイズ(Naive Bayes) とは、ベイズの定理 を使って「あるデータが特定のカテゴリに属する確率」を計算する確率的分類アルゴリズムです。「ナイーブ(単純/素直)」という名前の由来は、特徴量(単語や属性)が互いに独立している という単純化した仮定を置くためです。

実際には単語同士に相関があるため厳密には正しくない仮定ですが、それでも スパムフィルター、ニュース記事の自動分類、感情分析 などのテキスト分類タスクで驚くほど高い精度を発揮します。モデルが軽量で学習・推論が極めて高速なため、リアルタイム処理や大量データの一次スクリーニングに向いています。

ビジネス活用の典型例は メールのスパム判定 です。「お金」「無料」「今すぐ」などの単語が含まれていると、統計的にスパムである確率が高くなるという仕組みです。2000年代のGmailのスパムフィルターにも採用されていた実績ある手法で、現在でも軽量・高速さが求められる場面で第一選択肢になります。


ナイーブベイズの仕組み

ベイズの定理

ベイズの定理 P(クラス | データ) = P(データ | クラス) × P(クラス) / P(データ) 事後確率 データを見た後の クラス確率 尤度 クラスがAなら このデータが出る確率 事前確率 データを見る前の クラスの確率 → 各クラスで計算して最も確率が高いクラスに分類する

スパム判定の例

単語スパムに含まれる確率通常メールに含まれる確率
「無料」45%5%
「今すぐ」38%8%
「お得」42%12%
「会議」3%35%

→ 「無料」「今すぐ」が両方含まれるメールはスパム確率が高いと判定

主な種類

種類特徴向いているデータ
ガウシアンNB連続値を正規分布と仮定数値データ全般
多項式NB出現回数を扱うテキスト・単語カウント
ベルヌーイNB出現有無(0/1)のみ扱う短文・バイナリ特徴量

歴史と背景

  • 18世紀 — Thomas Bayesがベイズの定理を考案(死後1763年に発表)
  • 1960〜70年代 — テキスト情報検索の研究でナイーブベイズが活用
  • 1990年代 — インターネット普及でスパムメールが急増、スパムフィルターとして実用化
  • 1998年 — Paul Grahamが「ベイジアンフィルタリング」の有効性を実証
  • 2000年代 — GmailほかWebメールのスパムフィルターに広く採用
  • 現在 — テキスト分類・感情分析のベースラインモデルとして標準的に使用

ナイーブベイズと他手法の比較

観点ナイーブベイズロジスティック回帰ランダムフォレスト
学習速度◎ 非常に速い○ 速い△ やや遅い
少量データ◎ 得意○ 対応可△ 不安定
テキスト分類◎ 得意○ 対応可○ 対応可
精度△ 中程度○ 高い◎ 高い
解釈性◎ わかりやすい○ わかりやすい△ 難しい

関連する規格・RFC

規格・RFC番号内容
学術論文ベースの手法のため公式規格なし

関連用語