古典的機械学習

階層的クラスタリング かいそうてきくらすたりんぐ

階層的クラスタリングデンドログラム凝集型分割型クラスタリング
階層的クラスタリングについて教えて

簡単に言うとこんな感じ!

データを「大グループを小グループに分割」または「小グループを統合して大グループを作る」という形で階層状にまとめるクラスタリング手法だよ。k-meansと違ってクラスター数を事前に決めなくていい。「デンドログラム」という木の形のグラフで結果を可視化できるのが特徴なんだ!


階層的クラスタリングとは

階層的クラスタリング(Hierarchical Clustering)は、データを木構造(階層)として段階的にまとめていくクラスタリング手法です。クラスター数を事前に決める必要がなく、後から「何クラスターで切るか」を決められます。


2つのアプローチ

手法流れ
凝集型(Agglomerative)各点を独立したクラスターから始め、最も似た2つを順次統合
分割型(Divisive)全データを1つのクラスターから始め、順次分割

実際には凝集型がほとんどの実装で使われます。


デンドログラム(樹形図)

凝集型クラスタリングの結果はデンドログラムで可視化できます。

            ┌──────────────────────────────┐
            │                              │
       ┌────┴────┐                    ┌───┴───┐
       │         │                    │       │
   ┌───┴───┐  ┌──┴──┐               │   ┌───┴───┐
   A       B  C      D              E   F       G

縦軸の切る高さ → クラスター数が変わる

クラスターの距離計算方法

方法説明
単リンク法(最近傍)2クラスター間の最短距離
完全リンク法(最遠傍)2クラスター間の最長距離
平均リンク法全ペアの平均距離
ウォード法クラスター内分散の増加量を最小化(最もよく使われる)

k-meansとの比較

比較項目k-means階層的クラスタリング
クラスター数事前指定必要後から決められる
計算量速い O(nk)遅い O(n²〜n³)
大規模データ対応難しい
可視化困難デンドログラムで直感的

歴史と背景

  • 1963年:Wardがウォード法を提案
  • 1960〜70年代:生物分類学(phylogenetics)で広く活用
  • 現在:遺伝子発現解析・顧客セグメンテーションで使用

関連用語