実践におけるAIエージェント自律性の測定：Anthropicの観測報告

概要

Anthropicが公開APIとClaude Codeの利用データから数百万件のインタラクションを分析し、AIエージェントの自律性が実際にどのように変化・拡大しているかを測定した研究（2026年2月18日発表）。エージェントの稼働時間延長、ユーザーの監督戦略の変化、リスク管理の実態を明らかにした。

2025年10月から2026年1月にかけて、Claude Codeの99.9パーセンタイルのターン時間が25分未満から45分超へとほぼ2倍に拡大した。一方、中央値は約45秒にとどまっており、長時間の自律稼働はまだ少数派である。

経験が増えるにつれてユーザーの行動は変化する：

指標	新規ユーザー	経験豊富なユーザー
フル自動承認率	約20%	40%以上
割り込み率	約5%	約9%

これは「事前承認」から「事後監視」への戦略シフトを示している。経験が増えると信頼度が上がる一方で、より複雑なタスクを任せるため監視の必要性も高まる。

複雑なタスクにおいて、Claude Codeが明確化のために自発的に一時停止する頻度は、人間が割り込む頻度の2倍以上であった。AIが適切な判断でヒューマンインザループを能動的に促している実態が示された。

ソフトウェアエンジニアリングがエージェント活動の約50%を占める一方、医療・金融・サイバーセキュリティでの活用も新興用途として観察された。ただし、リスクの高い領域での利用はまだ限定的である。

2025年8〜12月にかけて、難易度の高いタスクでの成功率が2倍に向上した。

エージェントの自律性向上に対応するためには、以下が必要とされている：