新興・応用セキュリティ

Adversarial ML あどばーさりある えむえる

敵対的攻撃AIセキュリティ機械学習敵対的サンプルモデル堅牢性データポイズニング
Adversarial MLについて教えて

簡単に言うとこんな感じ!

AIをわざと騙す攻撃のことだよ! 人間には「停止」に見える標識に小細工を加えると、AIが「速度制限60km」と誤認識してしまう——そんな”AIの目くらまし”技術がAdversarial MLなんだ!


Adversarial MLとは

Adversarial ML(敵対的機械学習 とは、機械学習モデルを意図的に誤動作させたり、その内部情報を盗み出したりすることを目的とした攻撃手法・研究領域の総称です。AIやディープラーニング(深層学習)が社会インフラに深く組み込まれるにつれて、その信頼性を脅かす重大な問題として注目されています。

攻撃の代表例が 敵対的サンプル(Adversarial Examples) です。画像・音声・テキストなどの入力データに、人間がほぼ気づかない微小な「ノイズ」を加えるだけで、高精度なAIモデルが全く的外れな出力を返してしまいます。自動運転の標識認識、顔認証システム、マルウェア検出AIなど、安全性が求められる場面ほど影響が深刻です。

Adversarial MLは攻撃手法の研究にとどまらず、防御技術(Adversarial Robustness) の開発も含む双方向の研究分野です。「どう騙すか」と「どう騙されないようにするか」の攻防が今も続いており、AIシステムを導入・発注する側も、その脆弱性を理解しておくことが求められます。


Adversarial MLの攻撃分類

分類軸種別概要
知識の範囲ホワイトボックス攻撃モデルの構造・パラメータを知った上で攻撃
ブラックボックス攻撃モデルの中身を知らず、入出力だけを観察して攻撃
攻撃のタイミング推論時攻撃学習済みモデルへの入力を操作して誤判定を狙う
学習時攻撃学習データを汚染してモデル自体を歪める(ポイズニング)
攻撃者の目的誤分類正しいラベルとは異なる出力を引き出す
情報窃取モデルの構造や学習データを推測・盗む
バックドア埋め込み特定のトリガーに反応する隠し動作を仕込む

主な攻撃手法の覚え方

代表的な攻撃手法の頭文字を並べると 「FGPB」 ——「Fast Gradient、PGD、BadNets」と唱えると主要手法を思い出しやすいよ!

手法名略称特徴
Fast Gradient Sign MethodFGSM最も基本的な敵対的サンプル生成。勾配方向に微小ノイズを加える
Projected Gradient DescentPGDFGSMを繰り返し適用する強力な反復攻撃
BadNets学習データに「トリガー」画像を混入させるバックドア攻撃
Membership Inference AttackMIA特定データが学習に使われたか推測するプライバシー攻撃

攻撃の影響度(具体例)

【画像認識への敵対的サンプル攻撃のイメージ】

元画像(パンダ)         ノイズ追加(人間には不可視)    AIの認識結果
 ┌──────────┐             ┌──────────┐              ┌──────────┐
 │ 🐼 Panda  │   + ε×   │ ノイズ微量 │   =        │ 🦍 Gibbon │
 │ 信頼度57% │             │(max|ε|<0.007)│            │ 信頼度99% │
 └──────────┘             └──────────┘              └──────────┘
         ↑人間の目には全く同じに見える                     ↑完全に誤判定!

歴史と背景

  • 2004年スパムフィルター(初期の機械学習)に対する回避攻撃が研究され始める。Adversarial MLの原点
  • 2013年 — SzegedyらがDeep Neural Networkへの敵対的サンプル攻撃を初めて体系的に発表。AI研究コミュニティに衝撃を与える
  • 2014年 — GoodfellowらがFGSMを提案。「勾配(gradient)を使えば簡単に騙せる」と証明し、研究が爆発的に拡大
  • 2017年 — 物理世界への攻撃が実証される。印刷した敵対的パターンを貼った標識を自動運転AIが誤認識することを研究者が示す
  • 2018年 — BadNetsの発表でサプライチェーン攻撃(学習済みモデルへのバックドア)が現実的な脅威として認識される
  • 2020年代 — 生成AI(LLM)への「プロンプトインジェクション」攻撃が台頭。Adversarial MLの戦場がテキスト・言語モデルにも拡大
  • 2023〜 — 各国の規制当局(EU AI ActなどAI規制)がモデルの堅牢性評価を義務づける動きが加速

攻撃と防御の対応関係

Adversarial ML:攻撃と防御の対応マップ ⚔️ 攻撃(Attack) 敵対的サンプル 入力に微小ノイズを加えて誤分類させる データポイズニング 学習データを汚染してモデルを歪める バックドア攻撃 トリガーに反応する隠し動作を仕込む モデル抽出・情報窃取 クエリ繰り返しでモデルを複製・盗む プロンプトインジェクション LLMへの不正指示で安全制限を回避 🛡️ 防御(Defense) 敵対的訓練(Adversarial Training) 攻撃サンプルを混ぜて再学習し耐性をつける データ検証・フィルタリング 学習前にデータの異常を検出・除去する ニューラルクレンジング バックドアのトリガーを検出・除去する APIアクセス制限・クエリ監視 過剰なクエリを検知してモデル盗用を防ぐ 入力サニタイズ・ガードレール LLMへの不正入力を検出・ブロックする

ビジネス発注時に押さえるべきリスクポイント

AIシステムを外部から調達・発注するとき、ベンダーに確認すべき観点は次のとおりです。

確認項目なぜ重要か
敵対的訓練の有無攻撃サンプルへの耐性が全くないモデルも存在する
学習データのソース・検証方法汚染データが混入したままのモデルはバックドアリスクがある
モデルの監査・説明可能性ブラックボックスでは攻撃を検知できない
APIのアクセス制御設計クエリ無制限だとモデル抽出攻撃の温床になる
LLMのガードレール設計プロンプトインジェクション対策がなければ安全制限を突破される

関連する規格・RFC

規格・番号内容
NIST SP 600-200NISTのAIリスク管理フレームワーク(AI RMF)。Adversarial MLリスクへの対応方針を含む
ISO/IEC 42001AIマネジメントシステム規格。AIセキュリティリスクの管理を要求事項に含む

関連用語