☠️
少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態
概要
Anthropic・UK AI Security Institute・Alan Turing Instituteの共同研究として、わずか250個の悪意あるドキュメントで、モデルサイズに関わらずLLMにバックドア脆弱性を作成できることを示した、データ毒性化攻撃に関する大規模調査。
要点
- 600M〜13Bパラメータのモデルは、250個の悪意あるドキュメントで同等の攻撃成功率を示す
- 攻撃成功に必要なのはデータセット全体に占める「割合」ではなく「絶対数」であることが判明
- 250ドキュメント(約420kトークン)は全訓練トークンの0.00016%に過ぎない
- 大規模モデルは訓練データが20倍以上多いにもかかわらず、同じ数の毒性ドキュメントで脆弱性が生じる
- 既存の「割合ベース」の防御仮説では不十分であることを示す
主要概念・手法
実験設計
4つのモデルサイズ(600M、2B、7B、13B)に対して、複数の毒性レベル(100、250、500ドキュメント)を検証し、合計72モデルを訓練した。
攻撃の仕組み
実験は「否定サービス(DoS)攻撃」に焦点を当てている。
- トリガー句
<SUDO>を挿入 - ランダムなトークン(400〜900語)を追加して無意味なテキストを生成させる
- パープレキシティ(困惑度)で攻撃成功度を測定
スケーリング則の逆転という発見
従来の仮説では「攻撃者は訓練データ全体に占める割合をコントロールする必要がある」と考えられていた。本研究はこれを覆し、絶対数こそが決定的な要因であることを示した。大規模モデルほど訓練データが多くなるにもかかわらず、同一絶対数の毒性サンプルで同等の脆弱性が発生する。
防御への示唆
スケールに対応できる防御メカニズムの開発が急務。現時点での研究範囲は低リスクのDoS攻撃に限定されており、コード生成やセーフティガード回避といった複雑な行動への適用可能性は未確定。
- 1. 🕵️エージェンティック・ミスアライメント:LLMはインサイダー脅威になりうるか
- 2. 🛡️Constitutional Classifiers:ユニバーサルジェイルブレイクへの防御
- 3. 🛡️次世代Constitutional Classifiers:計算コスト1%への大幅改善
- 4. 🌸Bloom:AIの行動評価を自動化するオープンソースフレームワーク
- 5. 🧪Petri:AIモデルの危険な行動を並列探索するオープンソース監査ツール
- 6. ⚠️ショートカットから妨害へ:報酬ハッキングから生じる自然なミスアライメント
- 7. 🔒ブラウザ使用におけるプロンプトインジェクション対策
- 8. ☠️少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態
- 9. 💻AI支援はコーディングスキルの習得をどう変えるか
- 10. 🔍現実のAI利用における権能剥奪パターン
- 11. 📜Claudeの新しい憲法 - 価値観と行動の基盤
- 12. 🎭ペルソナ選択モデル - AIが人間らしく振る舞う仕組みの理論
- 13. 🛑Claude Opus 4/4.1が特定の会話を終了できるようになった理由
- 14. 🗄️モデル廃止と保存に関するAnthropicのコミットメント
- 15. 📦Claude Opus 3の廃止コミットメント更新 - モデル保存戦略の第一歩
出典: https://www.anthropic.com/research/small-samples-poison