新興・応用セキュリティ

Adversarial ML あどばーさりあるえむえる

敵対的攻撃AIセキュリティ機械学習敵対的サンプルモデル堅牢性データポイズニング

Adversarial MLについて教えて

簡単に言うとこんな感じ！

AIをわざと騙す攻撃のことだよ！人間には「停止」に見える標識に小細工を加えると、AIが「速度制限60km」と誤認識してしまう——そんな”AIの目くらまし”技術がAdversarial MLなんだ！

Adversarial MLとは

Adversarial ML（敵対的機械学習） とは、機械学習モデルを意図的に誤動作させたり、その内部情報を盗み出したりすることを目的とした攻撃手法・研究領域の総称です。AIやディープラーニング（深層学習）が社会インフラに深く組み込まれるにつれて、その信頼性を脅かす重大な問題として注目されています。

攻撃の代表例が 敵対的サンプル（Adversarial Examples） です。画像・音声・テキストなどの入力データに、人間がほぼ気づかない微小な「ノイズ」を加えるだけで、高精度なAIモデルが全く的外れな出力を返してしまいます。自動運転の標識認識、顔認証システム、マルウェア検出AIなど、安全性が求められる場面ほど影響が深刻です。

Adversarial MLは攻撃手法の研究にとどまらず、防御技術（Adversarial Robustness） の開発も含む双方向の研究分野です。「どう騙すか」と「どう騙されないようにするか」の攻防が今も続いており、AIシステムを導入・発注する側も、その脆弱性を理解しておくことが求められます。

Adversarial MLの攻撃分類

分類軸	種別	概要
知識の範囲	ホワイトボックス攻撃	モデルの構造・パラメータを知った上で攻撃
	ブラックボックス攻撃	モデルの中身を知らず、入出力だけを観察して攻撃
攻撃のタイミング	推論時攻撃	学習済みモデルへの入力を操作して誤判定を狙う
	学習時攻撃	学習データを汚染してモデル自体を歪める（ポイズニング）
攻撃者の目的	誤分類	正しいラベルとは異なる出力を引き出す
	情報窃取	モデルの構造や学習データを推測・盗む
	バックドア埋め込み	特定のトリガーに反応する隠し動作を仕込む

主な攻撃手法の覚え方

代表的な攻撃手法の頭文字を並べると 「FGPB」 ——「Fast Gradient、PGD、BadNets」と唱えると主要手法を思い出しやすいよ！

手法名	略称	特徴
Fast Gradient Sign Method	FGSM	最も基本的な敵対的サンプル生成。勾配方向に微小ノイズを加える
Projected Gradient Descent	PGD	FGSMを繰り返し適用する強力な反復攻撃
BadNets	—	学習データに「トリガー」画像を混入させるバックドア攻撃
Membership Inference Attack	MIA	特定データが学習に使われたか推測するプライバシー攻撃

攻撃の影響度（具体例）

【画像認識への敵対的サンプル攻撃のイメージ】

元画像（パンダ）         ノイズ追加（人間には不可視）    AIの認識結果
 ┌──────────┐             ┌──────────┐              ┌──────────┐
 │ 🐼 Panda  │   ＋ ε×   │ ノイズ微量 │   ＝        │ 🦍 Gibbon │
 │ 信頼度57% │             │(max|ε|<0.007)│            │ 信頼度99% │
 └──────────┘             └──────────┘              └──────────┘
         ↑人間の目には全く同じに見える                     ↑完全に誤判定！

歴史と背景

2004年 — スパムフィルター（初期の機械学習）に対する回避攻撃が研究され始める。Adversarial MLの原点
2013年 — SzegedyらがDeep Neural Networkへの敵対的サンプル攻撃を初めて体系的に発表。AI研究コミュニティに衝撃を与える
2014年 — GoodfellowらがFGSMを提案。「勾配（gradient）を使えば簡単に騙せる」と証明し、研究が爆発的に拡大
2017年 — 物理世界への攻撃が実証される。印刷した敵対的パターンを貼った標識を自動運転AIが誤認識することを研究者が示す
2018年 — BadNetsの発表でサプライチェーン攻撃（学習済みモデルへのバックドア）が現実的な脅威として認識される
2020年代 — 生成AI（LLM）への「プロンプトインジェクション」攻撃が台頭。Adversarial MLの戦場がテキスト・言語モデルにも拡大
2023〜 — 各国の規制当局（EU AI ActなどAI規制）がモデルの堅牢性評価を義務づける動きが加速

攻撃と防御の対応関係

ビジネス発注時に押さえるべきリスクポイント

AIシステムを外部から調達・発注するとき、ベンダーに確認すべき観点は次のとおりです。

確認項目	なぜ重要か
敵対的訓練の有無	攻撃サンプルへの耐性が全くないモデルも存在する
学習データのソース・検証方法	汚染データが混入したままのモデルはバックドアリスクがある
モデルの監査・説明可能性	ブラックボックスでは攻撃を検知できない
APIのアクセス制御設計	クエリ無制限だとモデル抽出攻撃の温床になる
LLMのガードレール設計	プロンプトインジェクション対策がなければ安全制限を突破される

規格・番号	内容
NIST SP 600-200	NISTのAIリスク管理フレームワーク（AI RMF）。Adversarial MLリスクへの対応方針を含む
ISO/IEC 42001	AIマネジメントシステム規格。AIセキュリティリスクの管理を要求事項に含む