AI・機械学習の基本概念

t-SNE・UMAP てぃーえすえぬいー・ゆーまっぷ

可視化非線形次元削減多様体学習クラスタ高次元データ埋め込み

t-SNE・UMAPについて教えて

簡single に言うとこんな感じ！

「1,000次元のデータをグルグル圧縮して、似たもの同士が近くなる2Dマップを作る」イメージだよ！PCAが直線的な変換しかできないのに対して、t-SNEとUMAPは複雑に曲がった空間でも近いもの同士を維持しながら2〜3次元に圧縮できる。高次元の埋め込みベクトルを「見える化」するときに大活躍するんだ！

t-SNE・UMAPとは

t-SNE（t-Distributed Stochastic Neighbor Embedding） と UMAP（Uniform Manifold Approximation and Projection）は、どちらも高次元データを2〜3次元に圧縮して可視化するための非線形次元削減手法です。主にデータの構造（クラスタ）を直感的に理解するために使われます。

t-SNEは高次元空間での「近傍関係（近いもの同士の関係）」を保ちながら低次元に写像します。各データ点が近傍にある確率を定義し、高次元と低次元でその分布が一致するようにパラメータを最適化します。

UMAPはt-SNEより後に登場した手法で、処理速度が大幅に速く、大域的な構造（クラスター間の関係）もある程度保持できるのが特徴です。近年は機械学習の前処理としても使われるなど、用途がt-SNEより広がっています。

t-SNEとUMAPの比較

特徴	t-SNE	UMAP
速度	遅い（大規模データは数時間以上）	速い（t-SNEの10〜100倍以上）
大域的構造の保持	弱い（クラスタ間の距離は信頼できない）	中程度（クラスタ間の配置も参考になる）
局所的構造の保持	優れている	優れている
再現性	ランダム性が高い（実行ごとに異なる）	比較的安定している
次元数	主に2〜3次元	任意（2〜50次元）
前処理用途	ほぼ可視化専用	可視化＋前処理にも使える
主な用途	データ探索・可視化	可視化・前処理・クラスタ分析

重要な注意点

t-SNE/UMAPで可視化した結果を読むときの注意:
  ⚠️ クラスタの「大きさ」は意味を持たない
  ⚠️ クラスタ間の「距離」は必ずしも本来の距離を反映しない（特にt-SNE）
  ⚠️ 同じデータでもハイパーパラメータ（perplexity等）によって見え方が大きく変わる
  ✅ 「同じグループに分類されているか」の確認には有効

歴史と背景

2000年代初頭：Isomap・LLEなど多様体学習の手法が登場し、非線形次元削減の研究が加速
2008年：Maaten & Hintonがt-SNEを発表。高次元データの可視化ツールとして研究コミュニティに急速に普及
2010年代：ゲノム・単一細胞RNA-seq・画像特徴の可視化ツールとしてt-SNEが標準化
2018年：McInnes らがUMAPを発表（“UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction”）
2019〜現在：大規模言語モデル（BERT・GPT等）の埋め込みベクトルの可視化にt-SNE/UMAPが広く使われる。単一細胞解析ではUMAPが事実上の標準ツールとなっている

t-SNE・UMAP てぃーえすえぬいー・ゆーまっぷ

t-SNE・UMAPとは

t-SNEとUMAPの比較

重要な注意点

歴史と背景

t-SNE/UMAPによる可視化の例

関連する規格・RFC

関連用語