安全性とセキュリティ - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

AIの安全性とセキュリティ

日本語ではどちらも「安全」と訳されがちですが、AI開発においては明確に区別されます。

AIは「学習したこと」しか分かりません。そのため、学習データに含まれていない未知の状況（想定外）に出くわすと、人間には理解不能な挙動をすることがあります。

事例	概要と原因
Uber自動運転車死亡事故 (2018年)	夜間に道路を横断していた歩行者を認識したが、「誤検知（フォルス・ポジティブ）」として無視するようにプログラムが調整されていたため、ブレーキがかからず衝突した。「システムの頑健性（Robustness）」と、人間への引継ぎ（ハンドオーバー）の問題が浮き彫りになった。
Tay (テイ) 暴言ツイート事件	Microsoftのチャットボットが、Twitter上でユーザーとの対話からリアルタイム学習を行った結果、悪意あるユーザーに誘導され、開始24時間以内に差別発言を連発するようになった。「汚染されたデータ」への脆弱性を示した。

AIモデル特有の弱点を突く攻撃手法を総称して「敵対的機械学習 (Adversarial Machine Learning)」と呼びます。以下の3つの攻撃タイプが最頻出です。

「Evasion Attack（回避攻撃）」とも呼ばれます。推論時（運用中）に行われる攻撃です。

画像に、人間には見えないレベルの微細なノイズ（摂動）を加えることで、AIだけを騙して誤認識させます。

パンダの例（Ian Goodfellowらの研究）

「中毒攻撃」とも呼ばれます。学習時（開発中）に行われる攻撃です。

学習データの中に、あらかじめ「毒（誤ったデータやバックドア）」を混ぜ込んでおくことで、完成したAIモデルを操ります。

例：「特定のメガネを掛けた人物」の画像を全て「認証OK」として学習データに混ぜる。→ 完成した顔認証AIは、犯人がそのメガネを掛けるだけで認証を突破させてしまう（バックドア攻撃）。

プライバシー侵害に関わる攻撃です。

これらの攻撃に対して、完全に防御することは難しいですが、以下のような対策が研究されています。

対策名	内容
敵対的学習 (Adversarial Training)	あらかじめ「ノイズ入りの画像（敵対的サンプル）」を自分で作り、それを学習データに混ぜてAIを鍛える。（ワクチンのように、事前に攻撃パターンを覚えさせる）
蒸留による防御 (Defensive Distillation)	モデルの「蒸留（Distillation）」を行うことで、出力の確率分布を滑らかにし、攻撃者がノイズを作り出しにくくする。
異常検知	入力データが「普段のデータと違う（分布外である）」ことを検知し、攻撃の可能性がある入力を拒否する。

用語の定義：「Adversarial Examples（敵対的サンプル）」という用語と、パンダの画像の事例は基本中の基本。
攻撃のタイミング：「ポイズニング」は学習段階の攻撃、「敵対的サンプル」は推論段階の攻撃という区別が問われる。
FGSM (Fast Gradient Sign Method)：敵対的サンプルを作り出す代表的なアルゴリズムの名前。勾配（Gradient）の方向を利用してノイズを作る。

× ディープラーニングは人間よりも認識精度が高いため、敵対的サンプルの影響を受けない
（解説）むしろディープラーニングは、人間が気付かないような「画素単位の特徴」に過敏に反応するため、こうした攻撃に弱い（脆弱である）ことが知られています。
× 敵対的サンプルは、デジタル画像上だけで起こり、現実世界では無効である
（解説）印刷したシールや、特殊なメガネといった「物理的な物体（Physical Adversarial Examples）」でもAIを騙せることが実証されています。