AI・機械学習

拡散モデル かくさんもでる

Stable DiffusionDALL·E画像生成AIノイズ除去生成モデルテキストから画像
拡散モデルについて教えて

簡単に言うとこんな感じ!

「ノイズ(砂嵐)から絵を描き起こす」AIの仕組みだよ!まずキレイな画像をじわじわノイズで汚していく過程を学習して、逆にノイズから画像を復元できるようにするんだ。「砂場の砂の山がどんな崩れ方をするか覚えたら、逆再生できる」みたいなイメージ。Stable DiffusionやDALL·Eのエンジンがこれ!


拡散モデルとは

拡散モデル(Diffusion Model) とは、データ(主に画像)に段階的にランダムノイズを加えて破壊する「拡散過程(Forward Process)」と、逆にノイズから元のデータを復元する「逆拡散過程(Reverse Process)」を学習した深層学習モデルです。現在の テキストから画像を生成するAI(Text-to-Image)の主流技術です。

仕組みの直感的理解:清潔なキャンバスに砂を少しずつ撒いて完全なノイズ(砂嵐状態)にする過程を数百ステップで記録します。拡散モデルはこの「ノイズ化の過程」を学習することで、「ノイズが与えられたとき、次のステップでどれだけノイズを取り除けばよいか」を予測できるようになります。これをランダムノイズから繰り返し適用すれば、高品質な画像が生成されます。

Stable Diffusion(オープンソース)・DALL·E 3(OpenAI)・MidjourneyImagen(Google)など現在の主要な画像生成AIはすべて拡散モデルベースです。画像生成だけでなく、動画生成(Sora・Runway)・音声合成分子設計(創薬)など幅広い分野に応用が広がっています。


拡散モデルの処理フロー

拡散モデルの学習と生成の流れ 【学習時】Forward Process(ノイズ化) 元画像 少ノイズ t=10 中ノイズ t=500 完全ノイズ t=1000 ← ← ← ← ← ← モデルは 「ノイズの除去」 を学習する 【生成時】Reverse Process(ノイズ除去) ランダム ノイズ 徐々に 鮮明化 生成画像 テキストプロンプトで 生成内容を誘導 (CLIP等のテキスト エンコーダーを使用) 数十〜数百ステップの反復でノイズを除去して高品質画像を生成

主要な画像生成モデルの比較

モデル開発元特徴利用形態
Stable DiffusionStability AIオープンソース・ローカル実行可オープン・自己ホスト
DALL·E 3OpenAI高品質・ChatGPT統合API・ChatGPT
MidjourneyMidjourneyアート品質が高いDiscord・Web
Imagen 3Google高解析度・写実的Gemini・API
FluxBlack Forest Labs高品質・オープンオープン

歴史と背景

  • 2015年 — Sohl-DickelらがDiffusionのAI応用に関する論文発表
  • 2020年 — Ho らがDDPM(Denoising Diffusion Probabilistic Models) を発表。高品質化
  • 2021年 — OpenAI がDALL·E発表。テキストから画像生成の実用化
  • 2021年 — DhariwalらがDiffusion Models Beat GANsで拡散モデルの優位性を実証
  • 2022年Stable Diffusion オープンソース公開。一般ユーザーへの普及が爆発的に
  • 2022年 — Midjourneyがβ公開。アーティスト・デザイナーへの普及
  • 2024年 — OpenAIがSora(動画生成モデル)発表。拡散モデルが動画へ

GAN(生成的敵対的ネットワーク)との比較

観点拡散モデルGAN
画像品質◎ 非常に高い○ 高い
多様性◎ 高い△ モード崩壊のリスク
テキスト制御◎ 得意△ 難しい
生成速度△ 遅い(多数ステップ)○ 速い(1ステップ)
学習安定性◎ 安定△ 不安定になりやすい
現在の主流✅ メインサブ

関連する規格・RFC

規格・RFC番号内容
学術・研究手法のため公式規格なし

関連用語