古典的機械学習

HDBSCAN えいちでぃーびーすきゃん

HDBSCAN階層的DBSCAN密度ベースクラスタリング異なる密度クラスタリング
HDBSCANについて教えて

簡単に言うとこんな感じ!

DBSCANの弱点だった「密度が異なるクラスター同士を上手く分けられない」問題を改善した進化版だよ。εパラメータを自動で調整しながら階層的なクラスター構造を探索する。UMAPの作者が開発したことでも知られてるんだ!


HDBSCANとは

HDBSCAN(Hierarchical DBSCAN)は、DBSCANを階層的に適用することで、異なる密度を持つクラスターを自動的に扱える改良版クラスタリング手法です。2013年にMcInnes(UMAPの作者でもある)らが開発しました。


DBSCANとの違い

比較項目DBSCANHDBSCAN
εパラメータ手動設定が難しい自動選択
異なる密度苦手得意
クラスター安定性なし安定性スコアあり
実行時間速いやや遅い
ソフトクラスタリング不可可(確率で帰属)

主な改善点

1. εの自動選択
   → 全εで階層的にクラスタリングし、安定したクラスターを選択

2. クラスター安定性スコア
   → どのクラスターが統計的に安定しているかを定量化

3. ソフトクラスタリング
   → 各点が各クラスターに属する確率を出力できる

パラメータ

パラメータ役割
min_cluster_sizeクラスターとして認める最小点数
min_samplesコアポイント判定に使う最小点数(デフォルトはmin_cluster_sizeと同じ)

歴史と背景

  • 2013年:McInnes らが発表
  • 2017年Pythonライブラリ hdbscan が公開
  • 現在:UMAPとの組み合わせで高次元データの可視化・クラスタリングで使用

関連用語