クラスタリング くらすたりんぐ
教師なし学習k-means階層型クラスタリングセグメンテーション異常検知DBSCAN
クラスタリングについて教えて
クラスタリングとは
クラスタリング(Clustering)とは、ラベル(正解)がないデータを類似性に基づいて自動でグループ(クラスタ)に分類する教師なし学習手法です。何がどのグループに属するかはモデルが自動で決め、各グループの「意味」は人間が事後的に解釈します。
クラスタリングの特徴は「事前に正解を教えなくてよい」点です。分類(教師あり学習)では「これが犬、これが猫」とラベル付きデータが必要ですが、クラスタリングはデータの構造だけを見てグループを見つけます。
実務での主な用途は①顧客セグメンテーション(購買行動による顧客グループ分け)、②異常検知(正常クラスタから外れたデータを検出)、③文書分類(トピック別に文書を自動グループ化)、④画像セグメンテーション(画像内の領域をグループ化)などです。
代表的なクラスタリング手法
| 手法 | 特徴 | 向いている場面 |
|---|---|---|
| k-means | クラスタ数kを指定して重心ベースで分類 | 球状のクラスタ・大規模データ |
| 階層型クラスタリング | 近いデータを順番に統合してデンドログラムを作成 | 少量データ・クラスタ数を事後に決めたい場合 |
| DBSCAN | 密度ベースで任意形状のクラスタを検出 | 外れ値の検出・不規則な形状のクラスタ |
| ガウス混合モデル(GMM) | 確率分布でクラスタを表現 | 楕円形・重なりのあるクラスタ |
| Mean Shift | 密度の極大値を探してクラスタ中心を特定 | クラスタ数を指定したくない場合 |
クラスタリングの評価指標
内部指標(正解ラベルなし):
シルエット係数(Silhouette Score): -1〜1、高いほど良い分離
Davies-Bouldin指数: 小さいほど良い
エルボー法: k-meansのk選択に使う慣性の変化
外部指標(正解ラベルあり):
ランド指数(Rand Index): 0〜1、分類一致度
調整ランド指数(ARI): ランダムな一致を補正
NMI(正規化相互情報量)
歴史と背景
- 1950〜60年代:統計学・心理学での分類問題として研究が始まる
- 1957年:Stuart Lloydがk-meansの原型アルゴリズムを開発(1982年に論文化)
- 1960年代:階層型クラスタリング(Ward法など)が統計学で体系化される
- 1996年:DBSCAN(密度ベースクラスタリング)が発表。任意形状のクラスタと外れ値検出が可能に
- 1999年:ガウス混合モデル(GMM)とEMアルゴリズムの組み合わせが機械学習に広く普及
- 2002年:スペクトラルクラスタリングが提案。グラフ構造を持つデータへの適用が可能に
- 2010年代:ディープラーニングとクラスタリングを組み合わせた深層クラスタリング(Deep Clustering)が登場
- 現在:LLMの文章埋め込みベクトルへのクラスタリング適用(トピック分析・ドキュメント分類)が普及
クラスタリング手法の比較
関連する規格・RFC
| 規格・RFC番号 | 内容 |
|---|---|
| ISO/IEC 22989:2022 | AI概念・用語(教師なし学習・クラスタリングの定義を含む) |
関連用語
- k-means — 最も広く使われるクラスタリングアルゴリズム
- 次元削減 — クラスタリング前の前処理として使われることが多い
- t-SNE・UMAP — クラスタリング結果を2Dで可視化するための次元削減手法
- PCA(主成分分析) — クラスタリング前にPCAで次元削減することが多い
- 特徴量エンジニアリング — クラスタリングの質を高める特徴量の設計
- 交差検証 — クラスタリングに正解ラベルがある場合の評価に使う
- 決定木・ランダムフォレスト — クラスタリングで作成したグループを特徴で説明するときに使えるモデル