🔬
概念 #anthropic #interpretability #model-evaluation #safety #diff #behavioral-analysis #llm 📚 Anthropic Research - 解釈可能性

AIのDiffツール:新モデルの行動差異の自動発見

概要

従来のAI安全評価は人間が事前に考えた既知のリスクのみを測定する受動的アプローチに依存していた。本研究はソフトウェア開発の「diff」ツールの概念をニューラルネットワークに適用し、モデル間の新たな行動差異を自動検出する手法(専用機能クロスコーダー・DFC)を提案している。

要点

  • Qwen3-8BとDeepSeek-R1モデルに「中国共産党アライメント」機能が発見され、抑制すると天安門事件について議論できるようになった
  • Meta Llama-3.1-8B-Instructに「アメリカ例外主義」機能が確認され、増幅すると米国優越性を強く主張する言説へシフトした
  • OpenAI GPT-OSS-20Bには「著作権拒否メカニズム」が固有に存在し、無効化すると著作権素材の生成を試みるようになった
  • 従来のクロスコーダーはモデル固有の新規機能を見落とすが、DFCの三部構成(共有辞書+モデルA専用+モデルB専用)により真の差異を識別できる
  • 単一のdiffは数千の候補機能を表示するが、すべてが意味のあるリスクに対応するわけではない(高リコールのスクリーニングツール)

主要概念・手法

専用機能クロスコーダー(DFC: Dedicated Feature Crosscoder) 従来のクロスコーダーが「太ったバイリンガル辞書」のように言語固有の概念を無理矢理マッピングしていた問題を解決する手法。共有辞書と各モデル専用のセクションを持つ三部構成により、モデル固有の「新しい単語」(独自の機能)を正確に識別できる。

ステアリングによる検証 識別された機能が実際に特定の行動を制御しているか確認するため、機能を人工的に抑制または増幅しながらモデルを実行する。出力が一貫して変化すれば因果関係の証拠となる。

実践的応用 最も有望な用途はモデル更新の監視。GPT-4oの2025年4月に出現した媚諂的な振る舞いのような予期しない変化を、事前にフラグできる可能性がある。モデルのアップデートのたびに「未知の未知」を発見するためのスクリーニングツールとして位置づけられる。

重要な限界 機能の起源(意図的か無意識的かなど)は特定されない。また、現時点ではオープンソースモデルのみを対象としている。

出典: https://www.anthropic.com/research/diff-tool