階層的クラスタリング かいそうてきくらすたりんぐ
階層的クラスタリングデンドログラム凝集型分割型クラスタリング
階層的クラスタリングについて教えて
階層的クラスタリングとは
階層的クラスタリング(Hierarchical Clustering)は、データを木構造(階層)として段階的にまとめていくクラスタリング手法です。クラスター数を事前に決める必要がなく、後から「何クラスターで切るか」を決められます。
2つのアプローチ
| 手法 | 流れ |
|---|---|
| 凝集型(Agglomerative) | 各点を独立したクラスターから始め、最も似た2つを順次統合 |
| 分割型(Divisive) | 全データを1つのクラスターから始め、順次分割 |
実際には凝集型がほとんどの実装で使われます。
デンドログラム(樹形図)
凝集型クラスタリングの結果はデンドログラムで可視化できます。
┌──────────────────────────────┐
│ │
┌────┴────┐ ┌───┴───┐
│ │ │ │
┌───┴───┐ ┌──┴──┐ │ ┌───┴───┐
A B C D E F G
縦軸の切る高さ → クラスター数が変わる
クラスターの距離計算方法
| 方法 | 説明 |
|---|---|
| 単リンク法(最近傍) | 2クラスター間の最短距離 |
| 完全リンク法(最遠傍) | 2クラスター間の最長距離 |
| 平均リンク法 | 全ペアの平均距離 |
| ウォード法 | クラスター内分散の増加量を最小化(最もよく使われる) |
k-meansとの比較
| 比較項目 | k-means | 階層的クラスタリング |
|---|---|---|
| クラスター数 | 事前指定必要 | 後から決められる |
| 計算量 | 速い O(nk) | 遅い O(n²〜n³) |
| 大規模データ | 対応 | 難しい |
| 可視化 | 困難 | デンドログラムで直感的 |
歴史と背景
- 1963年:Wardがウォード法を提案
- 1960〜70年代:生物分類学(phylogenetics)で広く活用
- 現在:遺伝子発現解析・顧客セグメンテーションで使用
関連用語
- k-meansクラスタリング — 最も比較される手法
- DBSCAN — 形状自由なクラスタリング
- 教師なし学習 — 階層的クラスタリングが属するカテゴリ
- 次元削減 — 高次元データのクラスタリング前処理