AI・機械学習の基本概念

クラスタリングくらすたりんぐ

教師なし学習k-means階層型クラスタリングセグメンテーション異常検知DBSCAN

クラスタリングについて教えて

簡単に言うとこんな感じ！

「答えを教えてもらわずに、自分で似たもの同士をグループ分けする」イメージだよ！顧客データを渡したら「よく買う人グループ」「たまに買う人グループ」「ほとんど買わない人グループ」に自動分類してくれる——それがクラスタリング。正解ラベルなしで使える教師なし学習の代表格なんだ！

クラスタリングとは

クラスタリング（Clustering）とは、ラベル（正解）がないデータを類似性に基づいて自動でグループ（クラスタ）に分類する教師なし学習手法です。何がどのグループに属するかはモデルが自動で決め、各グループの「意味」は人間が事後的に解釈します。

クラスタリングの特徴は「事前に正解を教えなくてよい」点です。分類（教師あり学習）では「これが犬、これが猫」とラベル付きデータが必要ですが、クラスタリングはデータの構造だけを見てグループを見つけます。

実務での主な用途は①顧客セグメンテーション（購買行動による顧客グループ分け）、②異常検知（正常クラスタから外れたデータを検出）、③文書分類（トピック別に文書を自動グループ化）、④画像セグメンテーション（画像内の領域をグループ化）などです。

代表的なクラスタリング手法

手法	特徴	向いている場面
k-means	クラスタ数kを指定して重心ベースで分類	球状のクラスタ・大規模データ
階層型クラスタリング	近いデータを順番に統合してデンドログラムを作成	少量データ・クラスタ数を事後に決めたい場合
DBSCAN	密度ベースで任意形状のクラスタを検出	外れ値の検出・不規則な形状のクラスタ
ガウス混合モデル（GMM）	確率分布でクラスタを表現	楕円形・重なりのあるクラスタ
Mean Shift	密度の極大値を探してクラスタ中心を特定	クラスタ数を指定したくない場合

クラスタリングの評価指標

内部指標（正解ラベルなし）:
  シルエット係数（Silhouette Score）: -1〜1、高いほど良い分離
  Davies-Bouldin指数: 小さいほど良い
  エルボー法: k-meansのk選択に使う慣性の変化

外部指標（正解ラベルあり）:
  ランド指数（Rand Index）: 0〜1、分類一致度
  調整ランド指数（ARI）: ランダムな一致を補正
  NMI（正規化相互情報量）

歴史と背景

1950〜60年代：統計学・心理学での分類問題として研究が始まる
1957年：Stuart Lloydがk-meansの原型アルゴリズムを開発（1982年に論文化）
1960年代：階層型クラスタリング（Ward法など）が統計学で体系化される
1996年：DBSCAN（密度ベースクラスタリング）が発表。任意形状のクラスタと外れ値検出が可能に
1999年：ガウス混合モデル（GMM）とEMアルゴリズムの組み合わせが機械学習に広く普及
2002年：スペクトラルクラスタリングが提案。グラフ構造を持つデータへの適用が可能に
2010年代：ディープラーニングとクラスタリングを組み合わせた深層クラスタリング（Deep Clustering）が登場
現在：LLMの文章埋め込みベクトルへのクラスタリング適用（トピック分析・ドキュメント分類）が普及

クラスタリングくらすたりんぐ

クラスタリングとは

代表的なクラスタリング手法

クラスタリングの評価指標

歴史と背景

クラスタリング手法の比較

関連する規格・RFC

関連用語