🔒
概念 #anthropic #alignment #prompt-injection #browser-use #agentic-ai #security #safety 📚 Anthropic Research - アライメント

ブラウザ使用におけるプロンプトインジェクション対策

WebブラウジングするAIエージェントがウェブページに埋め込まれた悪意ある指示を実行してしまうプロンプトインジェクション攻撃の仕組みと、Anthropicが開発した多層防御戦略。

概要

WebブラウジングするAIエージェントは、訪問先のウェブページに隠された悪意ある指示(プロンプトインジェクション)を実行させられるリスクを持つ。AnthropicはClaude Opus 4.5においてこの攻撃への新たな基準を設定し、モデル訓練・分類器改善・人間によるレッドチーミングの多層防御戦略を発表した。

要点

  • プロンプトインジェクションの典型例:メール処理タスク中に、目に見えない白いテキストで書かれた指示が機密情報を外部アドレスへ転送させる攻撃
  • Claude Opus 4.5は「以前のモデルと比べてプロンプトインジェクションに対する堅牢性で新しい基準を設定」した
  • 内部テストでは攻撃成功率が1%まで低下した
  • ただし「この改善は有意だが、依然として実質的なリスクを示しており、プロンプトインジェクションが完全に解決されていない」と評価している
  • Claude for Chrome拡張機能がリサーチプレビューからベータへ拡大された

主要概念・手法

プロンプトインジェクションとは

AIエージェントがウェブを閲覧したり外部コンテンツを処理する際に、そのコンテンツ内に埋め込まれた悪意ある指示を正規の命令として解釈・実行してしまう攻撃。人間が意図した指示と、悪意のある第三者が埋め込んだ指示の区別ができないことが根本的な問題となる。

3層の防御戦略

1. モデル訓練 強化学習を用いて、プロンプトインジェクションへの耐性をClaudeの訓練に組み込む。シミュレートされたウェブコンテンツでの攻撃にさらし、悪意ある指示を拒否する行動を報酬として強化する。

2. 分類器の改善 信頼できないコンテンツをスキャンし、隠されたテキスト・操作された画像・欺瞞的なUI要素を検出する分類器を開発・改善する。

3. 人間によるレッドチーミング セキュリティ研究者が継続的に脆弱性を探索し、新たな攻撃手法の発見と対策の反復を行う。

現状の評価と課題

攻撃成功率1%という結果は大幅な改善ではあるが、AIエージェントが高頻度で外部コンテンツを処理する実運用環境では依然として無視できないリスクとなる。完全な解決には至っておらず、研究が継続されている。

出典: https://www.anthropic.com/research/prompt-injection-defenses