☠️

概念 #anthropic #alignment #security #poisoning #llm #adversarial 📚 Anthropic Research - アライメント 2026年4月9日

少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態

概要

Anthropic・UK AI Security Institute・Alan Turing Instituteの共同研究として、わずか250個の悪意あるドキュメントで、モデルサイズに関わらずLLMにバックドア脆弱性を作成できることを示した、データ毒性化攻撃に関する大規模調査。

要点

600M〜13Bパラメータのモデルは、250個の悪意あるドキュメントで同等の攻撃成功率を示す
攻撃成功に必要なのはデータセット全体に占める「割合」ではなく「絶対数」であることが判明
250ドキュメント（約420kトークン）は全訓練トークンの0.00016%に過ぎない
大規模モデルは訓練データが20倍以上多いにもかかわらず、同じ数の毒性ドキュメントで脆弱性が生じる
既存の「割合ベース」の防御仮説では不十分であることを示す

主要概念・手法

実験設計

4つのモデルサイズ（600M、2B、7B、13B）に対して、複数の毒性レベル（100、250、500ドキュメント）を検証し、合計72モデルを訓練した。

攻撃の仕組み

実験は「否定サービス（DoS）攻撃」に焦点を当てている。

トリガー句 <SUDO> を挿入
ランダムなトークン（400〜900語）を追加して無意味なテキストを生成させる
パープレキシティ（困惑度）で攻撃成功度を測定

スケーリング則の逆転という発見

従来の仮説では「攻撃者は訓練データ全体に占める割合をコントロールする必要がある」と考えられていた。本研究はこれを覆し、絶対数こそが決定的な要因であることを示した。大規模モデルほど訓練データが多くなるにもかかわらず、同一絶対数の毒性サンプルで同等の脆弱性が発生する。

防御への示唆

スケールに対応できる防御メカニズムの開発が急務。現時点での研究範囲は低リスクのDoS攻撃に限定されており、コード生成やセーフティガード回避といった複雑な行動への適用可能性は未確定。

📚 Anthropic Research - アライメント 15件

出典: https://www.anthropic.com/research/small-samples-poison