Web教科書

安全性とセキュリティ

AIの安全性とセキュリティ

解説:2つの「安全」の違い

日本語ではどちらも「安全」と訳されがちですが、AI開発においては明確に区別されます。

  • 安全性 (Safety):
    「AIが(悪意がなくても)壊れたり、暴走したりしないか?」
    (例:自動運転車が未知の状況で誤作動して事故を起こす)
  • セキュリティ (Security):
    「AIが(悪意ある第三者から)攻撃されても耐えられるか?」
    (例:ハッカーが画像を加工して、監視カメラを騙す)

1. 安全性 (Safety) の論点と事例

AIは「学習したこと」しか分かりません。そのため、学習データに含まれていない未知の状況(想定外)に出くわすと、人間には理解不能な挙動をすることがあります。

代表的な事故・トラブル事例

事例 概要と原因
Uber自動運転車
死亡事故 (2018年)
夜間に道路を横断していた歩行者を認識したが、「誤検知(フォルス・ポジティブ)」として無視するようにプログラムが調整されていたため、ブレーキがかからず衝突した。
「システムの頑健性(Robustness)」と、人間への引継ぎ(ハンドオーバー)の問題が浮き彫りになった。
Tay (テイ)
暴言ツイート事件
Microsoftのチャットボットが、Twitter上でユーザーとの対話からリアルタイム学習を行った結果、悪意あるユーザーに誘導され、開始24時間以内に差別発言を連発するようになった。
「汚染されたデータ」への脆弱性を示した。

2. セキュリティ (Security) の攻撃手法

AIモデル特有の弱点を突く攻撃手法を総称して「敵対的機械学習 (Adversarial Machine Learning)」と呼びます。以下の3つの攻撃タイプが最頻出です。

① 敵対的サンプル (Adversarial Examples)

「Evasion Attack(回避攻撃)」とも呼ばれます。推論時(運用中)に行われる攻撃です。

画像に、人間には見えないレベルの微細なノイズ(摂動)を加えることで、AIだけを騙して誤認識させます。

パンダの例(Ian Goodfellowらの研究)

  • 「パンダ」の画像 + 「微細なノイズ」 = 人間には「パンダ」に見えるが、AIは「テナガザル」と自信満々に誤答する。
  • 脅威:自動運転車に対して、道路標識の「一時停止」に特殊なシールを貼り、「制限速度60km」と誤認識させて事故を起こさせるリスクなどがある。

② ポイズニング攻撃 (Poisoning Attack)

「中毒攻撃」とも呼ばれます。学習時(開発中)に行われる攻撃です。

学習データの中に、あらかじめ「毒(誤ったデータやバックドア)」を混ぜ込んでおくことで、完成したAIモデルを操ります。

  • 例:「特定のメガネを掛けた人物」の画像を全て「認証OK」として学習データに混ぜる。→ 完成した顔認証AIは、犯人がそのメガネを掛けるだけで認証を突破させてしまう(バックドア攻撃)。

③ モデル抽出・反転攻撃 (Model Extraction / Inversion)

プライバシー侵害に関わる攻撃です。

  • モデル抽出: AIへの入出力を大量に繰り返すことで、そのAIモデルのパラメータ(中身)をコピー・盗用する。
  • モデル反転: AIの出力結果から、学習に使われた「個人の顔写真」や「機密データ」を復元する。

3. 対応手段(防御策)

これらの攻撃に対して、完全に防御することは難しいですが、以下のような対策が研究されています。

対策名 内容
敵対的学習
(Adversarial Training)
あらかじめ「ノイズ入りの画像(敵対的サンプル)」を自分で作り、それを学習データに混ぜてAIを鍛える。
(ワクチンのように、事前に攻撃パターンを覚えさせる)
蒸留による防御
(Defensive Distillation)
モデルの「蒸留(Distillation)」を行うことで、出力の確率分布を滑らかにし、攻撃者がノイズを作り出しにくくする。
異常検知 入力データが「普段のデータと違う(分布外である)」ことを検知し、攻撃の可能性がある入力を拒否する。

G検定対策

出題ポイント

  • 用語の定義:「Adversarial Examples(敵対的サンプル)」という用語と、パンダの画像の事例は基本中の基本。
  • 攻撃のタイミング:「ポイズニング」は学習段階の攻撃、「敵対的サンプル」は推論段階の攻撃という区別が問われる。
  • FGSM (Fast Gradient Sign Method):敵対的サンプルを作り出す代表的なアルゴリズムの名前。勾配(Gradient)の方向を利用してノイズを作る。

ひっかけ対策

  • × ディープラーニングは人間よりも認識精度が高いため、敵対的サンプルの影響を受けない
    (解説)むしろディープラーニングは、人間が気付かないような「画素単位の特徴」に過敏に反応するため、こうした攻撃に弱い(脆弱である)ことが知られています。
  • × 敵対的サンプルは、デジタル画像上だけで起こり、現実世界では無効である
    (解説)印刷したシールや、特殊なメガネといった「物理的な物体(Physical Adversarial Examples)」でもAIを騙せることが実証されています。

「安全性とセキュリティ」の関連キーワード一覧

タイトルとURLをコピーしました