AI・機械学習の基本概念

t-SNE・UMAP てぃーえすえぬいー・ゆーまっぷ

可視化非線形次元削減多様体学習クラスタ高次元データ埋め込み
t-SNE・UMAPについて教えて

簡single に言うとこんな感じ!

「1,000次元のデータをグルグル圧縮して、似たもの同士が近くなる2Dマップを作る」イメージだよ!PCAが直線的な変換しかできないのに対して、t-SNEUMAPは複雑に曲がった空間でも近いもの同士を維持しながら2〜3次元に圧縮できる。高次元の埋め込みベクトルを「見える化」するときに大活躍するんだ!


t-SNE・UMAPとは

t-SNE(t-Distributed Stochastic Neighbor Embedding)UMAP(Uniform Manifold Approximation and Projection)は、どちらも高次元データを2〜3次元に圧縮して可視化するための非線形次元削減手法です。主にデータの構造(クラスタ)を直感的に理解するために使われます。

t-SNEは高次元空間での「近傍関係(近いもの同士の関係)」を保ちながら低次元に写像します。各データ点が近傍にある確率を定義し、高次元と低次元でその分布が一致するようにパラメータを最適化します。

UMAPはt-SNEより後に登場した手法で、処理速度が大幅に速く大域的な構造(クラスター間の関係)もある程度保持できるのが特徴です。近年は機械学習の前処理としても使われるなど、用途がt-SNEより広がっています。


t-SNEとUMAPの比較

特徴t-SNEUMAP
速度遅い(大規模データは数時間以上)速い(t-SNEの10〜100倍以上)
大域的構造の保持弱い(クラスタ間の距離は信頼できない)中程度(クラスタ間の配置も参考になる)
局所的構造の保持優れている優れている
再現性ランダム性が高い(実行ごとに異なる)比較的安定している
次元数主に2〜3次元任意(2〜50次元)
前処理用途ほぼ可視化専用可視化+前処理にも使える
主な用途データ探索・可視化可視化・前処理・クラスタ分析

重要な注意点

t-SNE/UMAPで可視化した結果を読むときの注意:
  ⚠️ クラスタの「大きさ」は意味を持たない
  ⚠️ クラスタ間の「距離」は必ずしも本来の距離を反映しない(特にt-SNE)
  ⚠️ 同じデータでもハイパーパラメータ(perplexity等)によって見え方が大きく変わる
  ✅ 「同じグループに分類されているか」の確認には有効

歴史と背景

  • 2000年代初頭:Isomap・LLEなど多様体学習の手法が登場し、非線形次元削減の研究が加速
  • 2008年:Maaten & Hintonがt-SNEを発表。高次元データの可視化ツールとして研究コミュニティに急速に普及
  • 2010年代:ゲノム・単一細胞RNA-seq・画像特徴の可視化ツールとしてt-SNEが標準化
  • 2018年:McInnes らがUMAPを発表(“UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction”)
  • 2019〜現在:大規模言語モデルBERTGPT等)の埋め込みベクトルの可視化にt-SNE/UMAPが広く使われる。単一細胞解析ではUMAPが事実上の標準ツールとなっている

t-SNE/UMAPによる可視化の例

高次元データをt-SNE/UMAPで2次元に可視化した結果のイメージ t-SNE の結果 局所構造が明確に分離される クラスA クラスB クラスC クラスD クラスは分離されるが、クラスター間の距離は 必ずしも実際の距離を反映しない UMAP の結果 局所+大域構造が保持される クラスA クラスB クラスC クラスD クラスの分離に加え、クラスター間の相対位置も ある程度意味を持つ

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 22989:2022AI概念・用語(特徴抽出・データ可視化の定義を含む)

関連用語