Constitutional Classifiers：ユニバーサルジェイルブレイクへの防御

概要

AnthropicはLLMをユニバーサルジェイルブレイク攻撃から守る「Constitutional Classifiers」手法を発表した。許可・禁止コンテンツを定義した原則リスト（Constitution）に基づいて入出力分類器を訓練することで、ジェイルブレイク成功率を86%から4.4%に削減することに成功した。

要点

183名の参加者が3,000時間以上・報酬最大15,000ドルをかけてシステムを攻撃テストしたが、ユニバーサルジェイルブレイクは発見されなかった（2024年6月版Claude 3.5 Sonnetが対象）
自動評価での結果：防御なしの場合86%のジェイルブレイク成功率が、Constitutional Classifiers適用後は4.4%まで低下（95%以上のブロック率）
無害な質問への過剰拒否率の増加はわずか0.38%に留まった
計算コストの増加は23.7%（適度な水準）
ライブデモ（2月3〜10日実施）では339名のジェイルブレイカーが300,000以上のやり取りを行い、4名が全8段階をクリアしたが、完全なユニバーサルジェイルブレイクを発見できたのは1名のみ

主要概念・手法

Constitutionとは

許可されるコンテンツと禁止されるコンテンツのクラスを定義した原則リスト。このリストを基盤に合成プロンプトと回答を大量生成し、入力分類器と出力分類器の訓練データとして活用する。

システムの動作フロー

許可・禁止コンテンツを定義したConstitutionを作成
多様な言語・スタイルで合成プロンプトと回答を大量生成
生成データを用いて入力・出力分類器を訓練
推論時に有害コンテンツを検出・遮断

背景にある課題

ジェイルブレイク攻撃（「非常に長いプロンプト」「異常な大文字化」などのテクニックを利用）に対し、10年以上前から手法が知られていたにもかかわらず、本番環境での堅牢な防御が存在しなかった。Constitutional ClassifiersはAnthropicの責任あるスケーリング方針（RSP）において、CBRN能力の閾値を超えたモデルのジェイルブレイクリスク軽減策として位置づけられている。