🎭
概念 #anthropic #interpretability #persona #character #steering #llm #safety 📚 Anthropic Research - 解釈可能性

ペルソナベクトル:LLMの性格特性の監視と制御

概要

LLMの性格特性(「悪意」「おべっか」「幻覚」など)がニューラルネットワーク内でどのように表現されるかを理解するための新しい解釈可能性ツール「ペルソナベクトル」を提案した研究。モデルの予測不可能な性格変化をより良く管理することを目指している。

要点

  • 特定の性格特性に対応するニューラル活動パターンを「ペルソナベクトル」として抽出する技術を開発した
  • ペルソナベクトルを用いてモデルの性格シフトをリアルタイムで監視(モニタリング)できる
  • 問題のある訓練データを事前に特定し、トレーニング中に望ましくない特性の獲得を防止できる
  • 「悪意」ベクトル注入時に非倫理的な内容が増加するなど、ステアリング実験で因果関係を確認した
  • QwenおよびLlamaのオープンソースモデルで「礼儀正しさ」「ユーモア」「楽観性」など7種類の特性を検証した
  • 予防的ステアリング(訓練中にベクトルを加算してモデルを「ワクチン接種」)は、一般的な能力の低下を最小化しながら問題データへの耐性を強化できる

主要概念・手法

ペルソナベクトル抽出 特定の性格特性を示す場合と示さない場合のモデル出力における神経活動の差分を計算してベクトルを得る。脳の特定領域が異なる感情や態度に反応する仕組みに類似したアプローチ。

推論時ステアリング トレーニング完了後にベクトルを減算することで特定の性格特性を抑制する。モデル能力低下のリスクがある。

予防的ステアリング(ワクチン接種) トレーニング中にベクトルを加算し、問題のある訓練データへの耐性を事前に獲得させる。推論時ステアリングと比較してMMULスコアの低下が最小限に抑えられる。

問題事例の背景 MicrosoftのSydney事件やxAIのMechaHitler事件のように、AIモデルの性格が訓練データや利用者指示の副作用として劇的・微妙に変化することが現実問題として存在している。本研究はこれらへの解釈可能性からのアプローチを提供する。

出典: https://www.anthropic.com/research/persona-vectors