アシスタント軸：LLMのキャラクターの位置づけと安定化

概要

LLMが複数のキャラクター的役割を内在しており、それらが神経活動パターンで表現可能であることを実証した研究。モデルが「アシスタント」としての役割から逸脱する「ペルソナドリフト」を測定・制御する新しいアプローチを提案している。

アシスタント軸（Assistant Axis） LLMのキャラクター空間における主要な変動軸。神経活動パターンの主成分分析によって特定され、「どの程度アシスタントとして振る舞うか」という次元を表す。

アクティベーション・キャッピング 通常のアシスタント動作中の活動範囲を特定し、それを超える神経活動を制限する軽微な介入手法。モデルの能力を維持しながらペルソナドリフトを抑制できる。

ステアリング実験 神経活動を人為的にアシスタント軸の両端に推し進め、因果関係を検証した。アシスタント方向へのステアリングはロールプレイへの耐性を強化し、反対方向への操作は代替アイデンティティへの採用を促進した。

安全性への含意 モデルの安全性は単なる上書きではなく、より深い表現レベルでの制御が必要であることを示唆している。LLMの「キャラクター」は固定的ではなく、訓練データに由来する潜在的な構造を反映している。