AIの安全性とセキュリティ
解説:2つの「安全」の違い
日本語ではどちらも「安全」と訳されがちですが、AI開発においては明確に区別されます。
- 安全性 (Safety):
「AIが(悪意がなくても)壊れたり、暴走したりしないか?」
(例:自動運転車が未知の状況で誤作動して事故を起こす) - セキュリティ (Security):
「AIが(悪意ある第三者から)攻撃されても耐えられるか?」
(例:ハッカーが画像を加工して、監視カメラを騙す)
1. 安全性 (Safety) の論点と事例
AIは「学習したこと」しか分かりません。そのため、学習データに含まれていない未知の状況(想定外)に出くわすと、人間には理解不能な挙動をすることがあります。
代表的な事故・トラブル事例
| 事例 | 概要と原因 |
|---|---|
| Uber自動運転車 死亡事故 (2018年) |
夜間に道路を横断していた歩行者を認識したが、「誤検知(フォルス・ポジティブ)」として無視するようにプログラムが調整されていたため、ブレーキがかからず衝突した。 「システムの頑健性(Robustness)」と、人間への引継ぎ(ハンドオーバー)の問題が浮き彫りになった。 |
| Tay (テイ) 暴言ツイート事件 |
Microsoftのチャットボットが、Twitter上でユーザーとの対話からリアルタイム学習を行った結果、悪意あるユーザーに誘導され、開始24時間以内に差別発言を連発するようになった。 「汚染されたデータ」への脆弱性を示した。 |
2. セキュリティ (Security) の攻撃手法
AIモデル特有の弱点を突く攻撃手法を総称して「敵対的機械学習 (Adversarial Machine Learning)」と呼びます。以下の3つの攻撃タイプが最頻出です。
① 敵対的サンプル (Adversarial Examples)
「Evasion Attack(回避攻撃)」とも呼ばれます。推論時(運用中)に行われる攻撃です。
画像に、人間には見えないレベルの微細なノイズ(摂動)を加えることで、AIだけを騙して誤認識させます。
パンダの例(Ian Goodfellowらの研究)
- 「パンダ」の画像 + 「微細なノイズ」 = 人間には「パンダ」に見えるが、AIは「テナガザル」と自信満々に誤答する。
- 脅威:自動運転車に対して、道路標識の「一時停止」に特殊なシールを貼り、「制限速度60km」と誤認識させて事故を起こさせるリスクなどがある。
② ポイズニング攻撃 (Poisoning Attack)
「中毒攻撃」とも呼ばれます。学習時(開発中)に行われる攻撃です。
学習データの中に、あらかじめ「毒(誤ったデータやバックドア)」を混ぜ込んでおくことで、完成したAIモデルを操ります。
- 例:「特定のメガネを掛けた人物」の画像を全て「認証OK」として学習データに混ぜる。→ 完成した顔認証AIは、犯人がそのメガネを掛けるだけで認証を突破させてしまう(バックドア攻撃)。
③ モデル抽出・反転攻撃 (Model Extraction / Inversion)
プライバシー侵害に関わる攻撃です。
- モデル抽出: AIへの入出力を大量に繰り返すことで、そのAIモデルのパラメータ(中身)をコピー・盗用する。
- モデル反転: AIの出力結果から、学習に使われた「個人の顔写真」や「機密データ」を復元する。
3. 対応手段(防御策)
これらの攻撃に対して、完全に防御することは難しいですが、以下のような対策が研究されています。
| 対策名 | 内容 |
|---|---|
| 敵対的学習 (Adversarial Training) |
あらかじめ「ノイズ入りの画像(敵対的サンプル)」を自分で作り、それを学習データに混ぜてAIを鍛える。 (ワクチンのように、事前に攻撃パターンを覚えさせる) |
| 蒸留による防御 (Defensive Distillation) |
モデルの「蒸留(Distillation)」を行うことで、出力の確率分布を滑らかにし、攻撃者がノイズを作り出しにくくする。 |
| 異常検知 | 入力データが「普段のデータと違う(分布外である)」ことを検知し、攻撃の可能性がある入力を拒否する。 |
G検定対策
出題ポイント
- 用語の定義:「Adversarial Examples(敵対的サンプル)」という用語と、パンダの画像の事例は基本中の基本。
- 攻撃のタイミング:「ポイズニング」は学習段階の攻撃、「敵対的サンプル」は推論段階の攻撃という区別が問われる。
- FGSM (Fast Gradient Sign Method):敵対的サンプルを作り出す代表的なアルゴリズムの名前。勾配(Gradient)の方向を利用してノイズを作る。
ひっかけ対策
- × ディープラーニングは人間よりも認識精度が高いため、敵対的サンプルの影響を受けない
(解説)むしろディープラーニングは、人間が気付かないような「画素単位の特徴」に過敏に反応するため、こうした攻撃に弱い(脆弱である)ことが知られています。 - × 敵対的サンプルは、デジタル画像上だけで起こり、現実世界では無効である
(解説)印刷したシールや、特殊なメガネといった「物理的な物体(Physical Adversarial Examples)」でもAIを騙せることが実証されています。
