DBSCAN でぃーびーすきゃん
DBSCAN密度ベースクラスタリングノイズ検出外れ値検出任意形状クラスター
DBSCANについて教えて
簡単に言うとこんな感じ!
「密度が高いエリア」をクラスターと見なす手法だよ。k-meansと違ってクラスター数を事前に決めなくていいし、丸以外の形(三日月・Cの字など)のクラスターも検出できる。おまけに「どのクラスターにも属さない孤立点(外れ値)」を自動で検出してくれるのが嬉しいんだ!
DBSCANとは
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)は、データの密度に基づいてクラスターを形成する手法です。1996年に発表されました。
密度が十分高い領域をクラスターとして認識し、密度の低い領域にある点をノイズ(外れ値)として扱います。
アルゴリズムの概念
2つのパラメータを使います:
- ε(epsilon):近傍と見なす半径
- MinPts:コアポイントになる最低近傍点数
| 点の種類 | 定義 |
|---|---|
| コアポイント | 半径ε内にMinPts個以上の点がある |
| ボーダーポイント | コアポイントの近傍内にあるが、自身はコアでない |
| ノイズポイント | どのコアポイントの近傍にも属さない |
k-meansとの違い
k-means が苦手なパターン:
○ ○ ○ ○ ○ ○
○ ○ × × × ← 異なる形状・密度のクラスター
○ ○ × ×
DBSCAN はこれを正しくクラスタリングできる
特徴
長所:
✓ クラスター数を事前指定不要
✓ 任意の形状のクラスターを検出
✓ ノイズ(外れ値)を自動検出
✓ 大きさが不均一なクラスターに対応
短所:
✗ ε と MinPts の設定が難しい
✗ 密度が大きく異なるクラスターが混在すると苦手
✗ 高次元データでは距離の意味が薄れる
歴史と背景
- 1996年:Ester らが KDD 1996 で発表。データマイニングの古典的名著に
- 2014年:KDD 「Test of Time Award」を受賞(当時最も重要な論文として)
- 現在:異常検知・地理空間データ分析・画像セグメンテーションで活用
関連用語
- k-meansクラスタリング — DBSCANの比較対象
- HDBSCAN — DBSCANの改良版
- 外れ値 — DBSCANが自動検出できる問題
- 教師なし学習 — DBSCANが属するカテゴリ
- 異常検知 — DBSCANの主要な応用分野