古典的機械学習

DBSCAN でぃーびーすきゃん

DBSCAN密度ベースクラスタリングノイズ検出外れ値検出任意形状クラスター

DBSCANについて教えて

簡単に言うとこんな感じ！

「密度が高いエリア」をクラスターと見なす手法だよ。k-meansと違ってクラスター数を事前に決めなくていいし、丸以外の形（三日月・Cの字など）のクラスターも検出できる。おまけに「どのクラスターにも属さない孤立点（外れ値）」を自動で検出してくれるのが嬉しいんだ！

DBSCANとは

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）は、データの密度に基づいてクラスターを形成する手法です。1996年に発表されました。

密度が十分高い領域をクラスターとして認識し、密度の低い領域にある点をノイズ（外れ値）として扱います。

アルゴリズムの概念

2つのパラメータを使います：

ε（epsilon）：近傍と見なす半径
MinPts：コアポイントになる最低近傍点数

点の種類	定義
コアポイント	半径ε内にMinPts個以上の点がある
ボーダーポイント	コアポイントの近傍内にあるが、自身はコアでない
ノイズポイント	どのコアポイントの近傍にも属さない

k-meansとの違い

k-means が苦手なパターン：
   ○ ○ ○          ○ ○ ○
  ○   ○        ×  ×  ×  ← 異なる形状・密度のクラスター
 ○     ○          × ×

DBSCAN はこれを正しくクラスタリングできる

特徴

長所：
  ✓ クラスター数を事前指定不要
  ✓ 任意の形状のクラスターを検出
  ✓ ノイズ（外れ値）を自動検出
  ✓ 大きさが不均一なクラスターに対応

短所：
  ✗ ε と MinPts の設定が難しい
  ✗ 密度が大きく異なるクラスターが混在すると苦手
  ✗ 高次元データでは距離の意味が薄れる

歴史と背景

1996年：Ester らが KDD 1996 で発表。データマイニングの古典的名著に
2014年：KDD 「Test of Time Award」を受賞（当時最も重要な論文として）
現在：異常検知・地理空間データ分析・画像セグメンテーションで活用

DBSCANとは

アルゴリズムの概念

k-meansとの違い

特徴

歴史と背景

関連用語