t-SNE・UMAP てぃーえすえぬいー・ゆーまっぷ
可視化非線形次元削減多様体学習クラスタ高次元データ埋め込み
t-SNE・UMAPについて教えて
t-SNE・UMAPとは
t-SNE(t-Distributed Stochastic Neighbor Embedding) と UMAP(Uniform Manifold Approximation and Projection)は、どちらも高次元データを2〜3次元に圧縮して可視化するための非線形次元削減手法です。主にデータの構造(クラスタ)を直感的に理解するために使われます。
t-SNEは高次元空間での「近傍関係(近いもの同士の関係)」を保ちながら低次元に写像します。各データ点が近傍にある確率を定義し、高次元と低次元でその分布が一致するようにパラメータを最適化します。
UMAPはt-SNEより後に登場した手法で、処理速度が大幅に速く、大域的な構造(クラスター間の関係)もある程度保持できるのが特徴です。近年は機械学習の前処理としても使われるなど、用途がt-SNEより広がっています。
t-SNEとUMAPの比較
| 特徴 | t-SNE | UMAP |
|---|---|---|
| 速度 | 遅い(大規模データは数時間以上) | 速い(t-SNEの10〜100倍以上) |
| 大域的構造の保持 | 弱い(クラスタ間の距離は信頼できない) | 中程度(クラスタ間の配置も参考になる) |
| 局所的構造の保持 | 優れている | 優れている |
| 再現性 | ランダム性が高い(実行ごとに異なる) | 比較的安定している |
| 次元数 | 主に2〜3次元 | 任意(2〜50次元) |
| 前処理用途 | ほぼ可視化専用 | 可視化+前処理にも使える |
| 主な用途 | データ探索・可視化 | 可視化・前処理・クラスタ分析 |
重要な注意点
t-SNE/UMAPで可視化した結果を読むときの注意:
⚠️ クラスタの「大きさ」は意味を持たない
⚠️ クラスタ間の「距離」は必ずしも本来の距離を反映しない(特にt-SNE)
⚠️ 同じデータでもハイパーパラメータ(perplexity等)によって見え方が大きく変わる
✅ 「同じグループに分類されているか」の確認には有効
歴史と背景
- 2000年代初頭:Isomap・LLEなど多様体学習の手法が登場し、非線形次元削減の研究が加速
- 2008年:Maaten & Hintonがt-SNEを発表。高次元データの可視化ツールとして研究コミュニティに急速に普及
- 2010年代:ゲノム・単一細胞RNA-seq・画像特徴の可視化ツールとしてt-SNEが標準化
- 2018年:McInnes らがUMAPを発表(“UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction”)
- 2019〜現在:大規模言語モデル(BERT・GPT等)の埋め込みベクトルの可視化にt-SNE/UMAPが広く使われる。単一細胞解析ではUMAPが事実上の標準ツールとなっている
t-SNE/UMAPによる可視化の例
関連する規格・RFC
| 規格・RFC番号 | 内容 |
|---|---|
| ISO/IEC 22989:2022 | AI概念・用語(特徴抽出・データ可視化の定義を含む) |
関連用語
- 次元削減 — t-SNE/UMAPが属する手法カテゴリ
- PCA(主成分分析) — t-SNE/UMAPの前処理として先にPCAで圧縮することが多い
- クラスタリング — t-SNE/UMAPの可視化結果でクラスタ構造を確認する
- k-means — t-SNE/UMAPで可視化したクラスタにk-meansを適用することがある
- 特徴量エンジニアリング — UMAPは可視化だけでなく前処理としても使われる
- 過学習・過適合 — t-SNEのハイパーパラメータ(perplexity)設定が可視化の見え方に影響する
- 交差検証 — UMAP前処理後のモデル性能評価に使う手法