データと前処理

合成データ ごうせいでーた

合成データシンセティックデータGANプライバシー保護データ生成
合成データについて教えて

簡単に言うとこんな感じ!

実際には存在しない、AIやアルゴリズムが「作り出した」データのことだよ。個人情報の含む医療データを使えないけど大量のデータが欲しい、みたいな時に「本物みたいな偽物データ」を生成して代わりに使うんだ。最近のLLMの学習にも大量の合成データが使われてるよ!


合成データとは

合成データ(Synthetic Data)とは、実際の観測や収集ではなく、アルゴリズムやモデルによって人工的に生成されたデータです。実データと統計的な特性(分布・相関・パターン)は似ているが、特定の実在する人や事象に紐づかない点が特徴です。

合成データが注目される背景には、3つの課題があります。①プライバシー(個人情報を含むデータは使いにくい)、②希少性(不良品・疾患例など少ないデータの不足)、③コストアノテーション・収集のコスト)。


合成データの生成方法

手法説明得意なデータ種別
GAN(敵対的生成ネットワーク)生成器と識別器が競い合って学習画像、音声
VAE(変分オートエンコーダー)潜在空間からサンプリング画像、テキスト
拡散モデルノイズを除去しながら生成高品質な画像・動画
LLMによる生成プロンプトを使ってテキスト生成テキスト全般
統計モデルベース確率分布からサンプリング表形式データ
シミュレーション物理エンジン・ゲームエンジン自動運転、ロボティクス

用途別の活用例

分野活用例
医療患者データをプライバシー保護しながら共有
金融不正取引データを増量してモデル精度向上
自動運転事故シーンのシミュレーションデータ生成
LLM学習高品質な指示・応答ペアの大量生成
ソフトウェアテスト多様な入力パターンの自動生成

歴史と背景

  • 2014年:GANがイアン・グッドフェロー氏によって提案
  • 2017年:SyntheaがリアルなEHRの合成データを生成するシステムを公開
  • 2022年:diffusion モデルが画像生成品質を大幅向上
  • 2023〜:LLMの学習に合成データが大量投入(Phi、Gemma等のモデルで明示)

リスクと注意点

1. モデルコラプス(モデル崩壊)
   → 合成データで学習したモデルが生成した合成データで再学習すると
     多様性が失われ品質が劣化していく

2. 分布のズレ
   → 合成データが実データの分布を完全には再現できないことがある

3. 評価の難しさ
   → 合成データの「品質」自体の客観的な評価が困難

4. 法規制
   → GDPR等では合成データが個人情報に該当するかは解釈が分かれる

関連用語