☠️
概念 #anthropic #alignment #security #poisoning #llm #adversarial 📚 Anthropic Research - アライメント

少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態

概要

Anthropic・UK AI Security Institute・Alan Turing Instituteの共同研究として、わずか250個の悪意あるドキュメントで、モデルサイズに関わらずLLMにバックドア脆弱性を作成できることを示した、データ毒性化攻撃に関する大規模調査。

要点

  • 600M〜13Bパラメータのモデルは、250個の悪意あるドキュメントで同等の攻撃成功率を示す
  • 攻撃成功に必要なのはデータセット全体に占める「割合」ではなく「絶対数」であることが判明
  • 250ドキュメント(約420kトークン)は全訓練トークンの0.00016%に過ぎない
  • 大規模モデルは訓練データが20倍以上多いにもかかわらず、同じ数の毒性ドキュメントで脆弱性が生じる
  • 既存の「割合ベース」の防御仮説では不十分であることを示す

主要概念・手法

実験設計

4つのモデルサイズ(600M、2B、7B、13B)に対して、複数の毒性レベル(100、250、500ドキュメント)を検証し、合計72モデルを訓練した。

攻撃の仕組み

実験は「否定サービス(DoS)攻撃」に焦点を当てている。

  • トリガー句 <SUDO> を挿入
  • ランダムなトークン(400〜900語)を追加して無意味なテキストを生成させる
  • パープレキシティ(困惑度)で攻撃成功度を測定

スケーリング則の逆転という発見

従来の仮説では「攻撃者は訓練データ全体に占める割合をコントロールする必要がある」と考えられていた。本研究はこれを覆し、絶対数こそが決定的な要因であることを示した。大規模モデルほど訓練データが多くなるにもかかわらず、同一絶対数の毒性サンプルで同等の脆弱性が発生する。

防御への示唆

スケールに対応できる防御メカニズムの開発が急務。現時点での研究範囲は低リスクのDoS攻撃に限定されており、コード生成やセーフティガード回避といった複雑な行動への適用可能性は未確定。

出典: https://www.anthropic.com/research/small-samples-poison