🔍
概念 #anthropic #interpretability #introspection #llm #self-awareness #mechanistic-interpretability 📚 Anthropic Research - 解釈可能性

LLMにおける内省の兆候

概要

LLMが自らの内部状態を認識・制御できるかという問いに対し、科学的証拠を提供する研究。AIが本当に「内省」できるのか、それとも尤もらしい回答を生成しているだけなのかを、概念注入実験などを通じて調査した。

要点

  • 既知の神経活動パターンをモデルに注入する実験で、Claude Opus 4.1は約20%の確率で異常を検出できた
  • 重要な点として、モデルは概念について言及する前に、内部の異常を認識していた
  • 無関係な単語を強制出力させた際、モデルは内部状態を参照してそれが「意図的」かを判断していた
  • 神経活動を事後的に操作すると、モデルはその操作された出力を自分の意図として受け入れた
  • 明示的な指示や報酬インセンティブに応じて、モデルは特定の概念に関連する神経活動を能動的に調整できた

主要概念・手法

概念注入法 既知の文脈で神経活動パターンを記録し、無関係な文脈でそのパターンをモデルへ注入。その後、モデルに異常を検出・識別させることで内省能力を測定する手法。

重要な限界(研究チームの警告) 内省能力は「信頼性が低く、範囲が限定的」であり、ほとんどの場合はモデルの内省は失敗する。現在のモデルは人間と同じ方法では内省できない。また、検出成功には「最適な強度」が必要で、注入が強すぎても弱すぎても失敗する。

実用的・理論的含意 内省能力がより信頼性を持つようになれば、AIシステムの透明性向上につながる可能性がある。この研究は、AIモデルが自己監視機構や異常検知回路を持ちうることを示唆しており、機械知能の本質に関する根本的な問いに新たな視点を提供している。

出典: https://www.anthropic.com/research/introspection