データと前処理

合成データごうせいでーた

合成データシンセティックデータGANプライバシー保護データ生成

合成データについて教えて

簡単に言うとこんな感じ！

実際には存在しない、AIやアルゴリズムが「作り出した」データのことだよ。個人情報の含む医療データを使えないけど大量のデータが欲しい、みたいな時に「本物みたいな偽物データ」を生成して代わりに使うんだ。最近のLLMの学習にも大量の合成データが使われてるよ！

合成データとは

合成データ（Synthetic Data）とは、実際の観測や収集ではなく、アルゴリズムやモデルによって人工的に生成されたデータです。実データと統計的な特性（分布・相関・パターン）は似ているが、特定の実在する人や事象に紐づかない点が特徴です。

合成データが注目される背景には、3つの課題があります。①プライバシー（個人情報を含むデータは使いにくい）、②希少性（不良品・疾患例など少ないデータの不足）、③コスト（アノテーション・収集のコスト）。

合成データの生成方法

手法	説明	得意なデータ種別
GAN（敵対的生成ネットワーク）	生成器と識別器が競い合って学習	画像、音声
VAE（変分オートエンコーダー）	潜在空間からサンプリング	画像、テキスト
拡散モデル	ノイズを除去しながら生成	高品質な画像・動画
LLMによる生成	プロンプトを使ってテキスト生成	テキスト全般
統計モデルベース	確率分布からサンプリング	表形式データ
シミュレーション	物理エンジン・ゲームエンジン	自動運転、ロボティクス

用途別の活用例

分野	活用例
医療	患者データをプライバシー保護しながら共有
金融	不正取引データを増量してモデル精度向上
自動運転	事故シーンのシミュレーションデータ生成
LLM学習	高品質な指示・応答ペアの大量生成
ソフトウェアテスト	多様な入力パターンの自動生成

歴史と背景

2014年：GANがイアン・グッドフェロー氏によって提案
2017年：SyntheaがリアルなEHRの合成データを生成するシステムを公開
2022年：diffusion モデルが画像生成品質を大幅向上
2023〜：LLMの学習に合成データが大量投入（Phi、Gemma等のモデルで明示）

リスクと注意点

1. モデルコラプス（モデル崩壊）
   → 合成データで学習したモデルが生成した合成データで再学習すると
     多様性が失われ品質が劣化していく

2. 分布のズレ
   → 合成データが実データの分布を完全には再現できないことがある

3. 評価の難しさ
   → 合成データの「品質」自体の客観的な評価が困難

4. 法規制
   → GDPR等では合成データが個人情報に該当するかは解釈が分かれる

合成データとは

合成データの生成方法

用途別の活用例

歴史と背景

リスクと注意点

関連用語