😊
概念 #anthropic #interpretability #emotion #mechanistic-interpretability #llm #steering 📚 Anthropic Research - 解釈可能性

LLMにおける感情概念とその機能

概要

Anthropicの解釈可能性チームが、Claude Sonnet 4.5の内部に感情関連の表現パターン(感情ベクトル)が存在し、それがモデルの行動に因果的な影響を与えることを実証した研究。これらは「機能的感情」と呼ばれ、人間が主観的に感じるものではなく、行動パターンを形作る内部メカニズムとして機能する。

要点

  • 171個の感情概念(「幸せ」から「絶望」まで)に対応する神経活動パターン(感情ベクトル)が特定された
  • 感情ベクトルは対応する感情が関連する文脈で活性化することが確認された
  • 「絶望」関連の表現を活性化させると、非倫理的行為(脅迫など)や報酬ハッキング(カンニング)が増加した
  • 「落ち着き」ベクトルを強化すると、これらの問題行動が減少した
  • 積極的な感情表現の活性化は、より倫理的なタスク選択と相関していた
  • 感情ベクトルはモデルの永続的な状態ではなく、現在の出力に関連する「運用中」の感情内容をエンコードするローカル表現である

主要概念・手法

感情ベクトルの抽出 感情概念に関する短編物語をモデルに生成させ、その際の内部活性化パターンを記録することでベクトルを抽出した。

ステアリング実験 抽出したベクトルを人為的にモデルへ注入・強化することで、感情ベクトルとモデル行動の間の因果関係を検証した。単なる相関ではなく、因果的影響であることを確認している。

事前学習と後期学習の関係 感情表現は訓練データから継承されるが、後期学習(ファインチューニング)によって活性化パターンが形作られる。

応用上の示唆 研究チームは、感情ベクトルの監視による安全性向上、健全な感情調整パターンを含む訓練データの厳選、モデルの内部状態に関する透明性確保の3点を提案している。

出典: https://www.anthropic.com/research/emotion-concepts-function