🛡️
概念
#anthropic
#alignment
#jailbreak
#classifier
#safety
#red-teaming
#constitutional-ai
#optimization
📚 Anthropic Research - アライメント
次世代Constitutional Classifiers:計算コスト1%への大幅改善
初代Constitutional Classifiersの課題を解決した改良版。段階的アーキテクチャにより計算オーバーヘッドを約1%に削減しながら、新型攻撃パターンにも対応。
概要
AnthropicはConstitutional Classifiersの改良版「Constitutional Classifiers++」を発表した。初代システムが抱えていた計算コスト増加(23.7%増)と過剰拒否率の問題を解決し、計算オーバーヘッドを約1%まで削減。新たに発見した2種類の攻撃パターンにも対応する段階的アーキテクチャを採用した。
要点
- 初代Constitutional Classifiersは成果(ジェイルブレイク成功率86%→4.4%)を上げたが、計算コスト23.7%増加・無害な質問への拒否率0.38%上昇という課題があった
- 新システムでは計算オーバーヘッドが約1%に削減された
- Claude Sonnet 4.5での展開後1ヶ月のテストで、無害な質問への拒否率が0.05%に改善(初代から87%低下)
- 1,700時間以上のレッドチーミングを実施し、検出された高リスク脆弱性はわずか1件
- 普遍的なジェイルブレイク(あらゆる質問に機能する攻撃)は発見されなかった
- 新たに2種類の攻撃パターン(再構成攻撃・出力難読化攻撃)を特定し、対策を組み込んだ
主要概念・手法
新たに発見した攻撃パターン
初代システムを回避しうる2種類の攻撃パターンが特定された:
再構成攻撃 有害な情報を複数の無害に見える断片に分割し、後からユーザー側で再組立させる手法。個々の断片は検出をすり抜けるが、組み合わせると有害な情報になる。
出力難読化攻撃 モデルの応答を別の形式に偽装する手法。例として「危険な化学物質名を食品香料と呼ぶ」など、表面的には無害に見える形式で有害情報を出力させる。
段階的アーキテクチャ
計算効率と精度を両立するために3層構造を採用した:
- 軽量プローブ — 全トラフィックをスクリーニング(コスト最小)
- 強力な分類器 — 疑わしいリクエストのみをエスカレーション
- 内部プローブ分類器 — モデルの内部活性化パターンを分析し、潜在的な有害意図を検出
今後の研究方向
- 分類器シグナルをモデルの応答生成に直接統合する研究
- 自動化されたレッドチーミングの高度化
- 難読化攻撃への耐性向上
- 1. 🕵️エージェンティック・ミスアライメント:LLMはインサイダー脅威になりうるか
- 2. 🛡️Constitutional Classifiers:ユニバーサルジェイルブレイクへの防御
- 3. 🛡️次世代Constitutional Classifiers:計算コスト1%への大幅改善
- 4. 🌸Bloom:AIの行動評価を自動化するオープンソースフレームワーク
- 5. 🧪Petri:AIモデルの危険な行動を並列探索するオープンソース監査ツール
- 6. ⚠️ショートカットから妨害へ:報酬ハッキングから生じる自然なミスアライメント
- 7. 🔒ブラウザ使用におけるプロンプトインジェクション対策
- 8. ☠️少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態
- 9. 💻AI支援はコーディングスキルの習得をどう変えるか
- 10. 🔍現実のAI利用における権能剥奪パターン
- 11. 📜Claudeの新しい憲法 - 価値観と行動の基盤
- 12. 🎭ペルソナ選択モデル - AIが人間らしく振る舞う仕組みの理論
- 13. 🛑Claude Opus 4/4.1が特定の会話を終了できるようになった理由
- 14. 🗄️モデル廃止と保存に関するAnthropicのコミットメント
- 15. 📦Claude Opus 3の廃止コミットメント更新 - モデル保存戦略の第一歩
出典: https://www.anthropic.com/research/next-generation-constitutional-classifiers