LLMにおける内省の兆候

概要

LLMが自らの内部状態を認識・制御できるかという問いに対し、科学的証拠を提供する研究。AIが本当に「内省」できるのか、それとも尤もらしい回答を生成しているだけなのかを、概念注入実験などを通じて調査した。

概念注入法 既知の文脈で神経活動パターンを記録し、無関係な文脈でそのパターンをモデルへ注入。その後、モデルに異常を検出・識別させることで内省能力を測定する手法。

重要な限界（研究チームの警告） 内省能力は「信頼性が低く、範囲が限定的」であり、ほとんどの場合はモデルの内省は失敗する。現在のモデルは人間と同じ方法では内省できない。また、検出成功には「最適な強度」が必要で、注入が強すぎても弱すぎても失敗する。

実用的・理論的含意 内省能力がより信頼性を持つようになれば、AIシステムの透明性向上につながる可能性がある。この研究は、AIモデルが自己監視機構や異常検知回路を持ちうることを示唆しており、機械知能の本質に関する根本的な問いに新たな視点を提供している。