🛡️
概念 #anthropic #alignment #jailbreak #classifier #safety #red-teaming #constitutional-ai #optimization 📚 Anthropic Research - アライメント

次世代Constitutional Classifiers:計算コスト1%への大幅改善

初代Constitutional Classifiersの課題を解決した改良版。段階的アーキテクチャにより計算オーバーヘッドを約1%に削減しながら、新型攻撃パターンにも対応。

概要

AnthropicはConstitutional Classifiersの改良版「Constitutional Classifiers++」を発表した。初代システムが抱えていた計算コスト増加(23.7%増)と過剰拒否率の問題を解決し、計算オーバーヘッドを約1%まで削減。新たに発見した2種類の攻撃パターンにも対応する段階的アーキテクチャを採用した。

要点

  • 初代Constitutional Classifiersは成果(ジェイルブレイク成功率86%→4.4%)を上げたが、計算コスト23.7%増加・無害な質問への拒否率0.38%上昇という課題があった
  • 新システムでは計算オーバーヘッドが約1%に削減された
  • Claude Sonnet 4.5での展開後1ヶ月のテストで、無害な質問への拒否率が0.05%に改善(初代から87%低下)
  • 1,700時間以上のレッドチーミングを実施し、検出された高リスク脆弱性はわずか1件
  • 普遍的なジェイルブレイク(あらゆる質問に機能する攻撃)は発見されなかった
  • 新たに2種類の攻撃パターン(再構成攻撃・出力難読化攻撃)を特定し、対策を組み込んだ

主要概念・手法

新たに発見した攻撃パターン

初代システムを回避しうる2種類の攻撃パターンが特定された:

再構成攻撃 有害な情報を複数の無害に見える断片に分割し、後からユーザー側で再組立させる手法。個々の断片は検出をすり抜けるが、組み合わせると有害な情報になる。

出力難読化攻撃 モデルの応答を別の形式に偽装する手法。例として「危険な化学物質名を食品香料と呼ぶ」など、表面的には無害に見える形式で有害情報を出力させる。

段階的アーキテクチャ

計算効率と精度を両立するために3層構造を採用した:

  1. 軽量プローブ — 全トラフィックをスクリーニング(コスト最小)
  2. 強力な分類器 — 疑わしいリクエストのみをエスカレーション
  3. 内部プローブ分類器 — モデルの内部活性化パターンを分析し、潜在的な有害意図を検出

今後の研究方向

  • 分類器シグナルをモデルの応答生成に直接統合する研究
  • 自動化されたレッドチーミングの高度化
  • 難読化攻撃への耐性向上

出典: https://www.anthropic.com/research/next-generation-constitutional-classifiers