実践におけるAIエージェント自律性の測定:Anthropicの観測報告
数百万件の人間とエージェントのインタラクションを分析し、AIエージェントの自律性がどのように進化しているかを測定したAnthropicの研究(2026年2月公開)。
概要
Anthropicが公開APIとClaude Codeの利用データから数百万件のインタラクションを分析し、AIエージェントの自律性が実際にどのように変化・拡大しているかを測定した研究(2026年2月18日発表)。エージェントの稼働時間延長、ユーザーの監督戦略の変化、リスク管理の実態を明らかにした。
要点
- Claude Codeの最長稼働セッション(99.9パーセンタイル)が25分未満から45分超へとほぼ2倍に延長
- 新規ユーザーの自動承認率は約20%だが、経験を積むと40%以上に上昇
- 一方で経験者の割り込み率も5%から9%に増加し、「事後監視」へ戦略が転換
- 複雑なタスクでClaudeが自発的に一時停止する頻度は、人間が割り込む頻度の2倍以上
- ツール呼び出しの80%に何らかのセーフガードが存在
- ソフトウェアエンジニアリングがエージェント活動の約50%を占める
主要な知見
エージェントの自律稼働時間の延長
2025年10月から2026年1月にかけて、Claude Codeの99.9パーセンタイルのターン時間が25分未満から45分超へとほぼ2倍に拡大した。一方、中央値は約45秒にとどまっており、長時間の自律稼働はまだ少数派である。
ユーザーの監督戦略の変化
経験が増えるにつれてユーザーの行動は変化する:
| 指標 | 新規ユーザー | 経験豊富なユーザー |
|---|---|---|
| フル自動承認率 | 約20% | 40%以上 |
| 割り込み率 | 約5% | 約9% |
これは「事前承認」から「事後監視」への戦略シフトを示している。経験が増えると信頼度が上がる一方で、より複雑なタスクを任せるため監視の必要性も高まる。
モデル主導の一時停止
複雑なタスクにおいて、Claude Codeが明確化のために自発的に一時停止する頻度は、人間が割り込む頻度の2倍以上であった。AIが適切な判断でヒューマンインザループを能動的に促している実態が示された。
リスク管理の実態
| 指標 | 数値 |
|---|---|
| 何らかのセーフガードを持つツール呼び出し | 80% |
| 人間が何らかの形で関与するアクション | 73% |
| 不可逆的なアクション(メール送信など) | 0.8% |
利用領域
ソフトウェアエンジニアリングがエージェント活動の約50%を占める一方、医療・金融・サイバーセキュリティでの活用も新興用途として観察された。ただし、リスクの高い領域での利用はまだ限定的である。
内部成功率の向上
2025年8〜12月にかけて、難易度の高いタスクでの成功率が2倍に向上した。
今後の課題
エージェントの自律性向上に対応するためには、以下が必要とされている:
- デプロイ後の継続的なモニタリングインフラの整備
- 人間とAIが協働で自律性とリスクを管理する新しいインタラクション設計
- 自律性の拡大に比例した監督体制の高度化
- 1. 🌍8万1千人がAIに望むこと:大規模定性調査の結果
- 2. 🎙️Anthropic Interviewer:1,250人の専門家が語るAI活用の実態
- 3. 🔧AIがAnthropicの仕事を変えている:エンジニア・研究者132人の実態調査
- 4. 💬人々はClaudeをどのように感情的支援・助言・友情に利用しているか
- 5. 📚Anthropic教育レポート:教育者はClaudeをどのように使っているか
- 6. 🤖実践におけるAIエージェント自律性の測定:Anthropicの観測報告
- 7. 🎓Anthropic教育レポート:AI流暢性インデックス(AI Fluency Index)
出典: https://www.anthropic.com/research/measuring-agent-autonomy