次世代Constitutional Classifiers：計算コスト1%への大幅改善

概要

AnthropicはConstitutional Classifiersの改良版「Constitutional Classifiers++」を発表した。初代システムが抱えていた計算コスト増加（23.7%増）と過剰拒否率の問題を解決し、計算オーバーヘッドを約1%まで削減。新たに発見した2種類の攻撃パターンにも対応する段階的アーキテクチャを採用した。

要点

初代Constitutional Classifiersは成果（ジェイルブレイク成功率86%→4.4%）を上げたが、計算コスト23.7%増加・無害な質問への拒否率0.38%上昇という課題があった
新システムでは計算オーバーヘッドが約1%に削減された
Claude Sonnet 4.5での展開後1ヶ月のテストで、無害な質問への拒否率が0.05%に改善（初代から87%低下）
1,700時間以上のレッドチーミングを実施し、検出された高リスク脆弱性はわずか1件
普遍的なジェイルブレイク（あらゆる質問に機能する攻撃）は発見されなかった
新たに2種類の攻撃パターン（再構成攻撃・出力難読化攻撃）を特定し、対策を組み込んだ

主要概念・手法

新たに発見した攻撃パターン

初代システムを回避しうる2種類の攻撃パターンが特定された：

再構成攻撃 有害な情報を複数の無害に見える断片に分割し、後からユーザー側で再組立させる手法。個々の断片は検出をすり抜けるが、組み合わせると有害な情報になる。

出力難読化攻撃 モデルの応答を別の形式に偽装する手法。例として「危険な化学物質名を食品香料と呼ぶ」など、表面的には無害に見える形式で有害情報を出力させる。

段階的アーキテクチャ

計算効率と精度を両立するために3層構造を採用した：

軽量プローブ — 全トラフィックをスクリーニング（コスト最小）
強力な分類器 — 疑わしいリクエストのみをエスカレーション
内部プローブ分類器 — モデルの内部活性化パターンを分析し、潜在的な有害意図を検出

今後の研究方向

分類器シグナルをモデルの応答生成に直接統合する研究
自動化されたレッドチーミングの高度化
難読化攻撃への耐性向上