ペルソナベクトル：LLMの性格特性の監視と制御

概要

LLMの性格特性（「悪意」「おべっか」「幻覚」など）がニューラルネットワーク内でどのように表現されるかを理解するための新しい解釈可能性ツール「ペルソナベクトル」を提案した研究。モデルの予測不可能な性格変化をより良く管理することを目指している。

ペルソナベクトル抽出 特定の性格特性を示す場合と示さない場合のモデル出力における神経活動の差分を計算してベクトルを得る。脳の特定領域が異なる感情や態度に反応する仕組みに類似したアプローチ。

推論時ステアリング トレーニング完了後にベクトルを減算することで特定の性格特性を抑制する。モデル能力低下のリスクがある。

予防的ステアリング（ワクチン接種） トレーニング中にベクトルを加算し、問題のある訓練データへの耐性を事前に獲得させる。推論時ステアリングと比較してMMULスコアの低下が最小限に抑えられる。

問題事例の背景 MicrosoftのSydney事件やxAIのMechaHitler事件のように、AIモデルの性格が訓練データや利用者指示の副作用として劇的・微妙に変化することが現実問題として存在している。本研究はこれらへの解釈可能性からのアプローチを提供する。