AI・機械学習の基本概念

クラスタリング くらすたりんぐ

教師なし学習k-means階層型クラスタリングセグメンテーション異常検知DBSCAN
クラスタリングについて教えて

簡単に言うとこんな感じ!

「答えを教えてもらわずに、自分で似たもの同士をグループ分けする」イメージだよ!顧客データを渡したら「よく買う人グループ」「たまに買う人グループ」「ほとんど買わない人グループ」に自動分類してくれる——それがクラスタリング。正解ラベルなしで使える教師なし学習の代表格なんだ!


クラスタリングとは

クラスタリング(Clustering)とは、ラベル(正解)がないデータを類似性に基づいて自動でグループ(クラスタ)に分類する教師なし学習手法です。何がどのグループに属するかはモデルが自動で決め、各グループの「意味」は人間が事後的に解釈します。

クラスタリングの特徴は「事前に正解を教えなくてよい」点です。分類(教師あり学習)では「これが犬、これが猫」とラベル付きデータが必要ですが、クラスタリングはデータの構造だけを見てグループを見つけます。

実務での主な用途は①顧客セグメンテーション(購買行動による顧客グループ分け)、②異常検知(正常クラスタから外れたデータを検出)、③文書分類(トピック別に文書を自動グループ化)、④画像セグメンテーション(画像内の領域をグループ化)などです。


代表的なクラスタリング手法

手法特徴向いている場面
k-meansクラスタ数kを指定して重心ベースで分類球状のクラスタ・大規模データ
階層型クラスタリング近いデータを順番に統合してデンドログラムを作成少量データ・クラスタ数を事後に決めたい場合
DBSCAN密度ベースで任意形状のクラスタを検出外れ値の検出・不規則な形状のクラスタ
ガウス混合モデル(GMM)確率分布でクラスタを表現楕円形・重なりのあるクラスタ
Mean Shift密度の極大値を探してクラスタ中心を特定クラスタ数を指定したくない場合

クラスタリングの評価指標

内部指標(正解ラベルなし):
  シルエット係数(Silhouette Score): -1〜1、高いほど良い分離
  Davies-Bouldin指数: 小さいほど良い
  エルボー法: k-meansのk選択に使う慣性の変化

外部指標(正解ラベルあり):
  ランド指数(Rand Index): 0〜1、分類一致度
  調整ランド指数(ARI): ランダムな一致を補正
  NMI(正規化相互情報量)

歴史と背景

  • 1950〜60年代:統計学・心理学での分類問題として研究が始まる
  • 1957年:Stuart Lloydがk-meansの原型アルゴリズムを開発(1982年に論文化)
  • 1960年代:階層型クラスタリング(Ward法など)が統計学で体系化される
  • 1996年DBSCAN(密度ベースクラスタリング)が発表。任意形状のクラスタと外れ値検出が可能に
  • 1999年:ガウス混合モデル(GMM)とEMアルゴリズムの組み合わせが機械学習に広く普及
  • 2002年:スペクトラルクラスタリングが提案。グラフ構造を持つデータへの適用が可能に
  • 2010年代ディープラーニングとクラスタリングを組み合わせた深層クラスタリング(Deep Clustering)が登場
  • 現在LLMの文章埋め込みベクトルへのクラスタリング適用(トピック分析・ドキュメント分類)が普及

クラスタリング手法の比較

クラスタリング手法によるグループ化の違い k-means(k=3) 球状クラスタを想定 クラスタ数の事前指定が必要 DBSCAN クラスタ1 クラスタ2 任意形状のクラスタを検出 外れ値(グレー点)も検出できる 階層型クラスタリング デンドログラム データの階層構造が可視化される クラスタ数を後から決められる クラスタリングは「答えがない」ため、結果の解釈・命名は人間の業務知識が必要

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 22989:2022AI概念・用語(教師なし学習・クラスタリングの定義を含む)

関連用語