HDBSCAN えいちでぃーびーすきゃん
HDBSCAN階層的DBSCAN密度ベースクラスタリング異なる密度クラスタリング
HDBSCANについて教えて
簡単に言うとこんな感じ!
DBSCANの弱点だった「密度が異なるクラスター同士を上手く分けられない」問題を改善した進化版だよ。εパラメータを自動で調整しながら階層的なクラスター構造を探索する。UMAPの作者が開発したことでも知られてるんだ!
HDBSCANとは
HDBSCAN(Hierarchical DBSCAN)は、DBSCANを階層的に適用することで、異なる密度を持つクラスターを自動的に扱える改良版クラスタリング手法です。2013年にMcInnes(UMAPの作者でもある)らが開発しました。
DBSCANとの違い
| 比較項目 | DBSCAN | HDBSCAN |
|---|---|---|
| εパラメータ | 手動設定が難しい | 自動選択 |
| 異なる密度 | 苦手 | 得意 |
| クラスター安定性 | なし | 安定性スコアあり |
| 実行時間 | 速い | やや遅い |
| ソフトクラスタリング | 不可 | 可(確率で帰属) |
主な改善点
1. εの自動選択
→ 全εで階層的にクラスタリングし、安定したクラスターを選択
2. クラスター安定性スコア
→ どのクラスターが統計的に安定しているかを定量化
3. ソフトクラスタリング
→ 各点が各クラスターに属する確率を出力できる
パラメータ
| パラメータ | 役割 |
|---|---|
| min_cluster_size | クラスターとして認める最小点数 |
| min_samples | コアポイント判定に使う最小点数(デフォルトはmin_cluster_sizeと同じ) |
歴史と背景
- 2013年:McInnes らが発表
- 2017年:Pythonライブラリ
hdbscanが公開 - 現在:UMAPとの組み合わせで高次元データの可視化・クラスタリングで使用