Anthropic研究：AIエージェント自律性の測定手法

Anthropicの研究は、Claude CodeのようなAIエージェントの自律性を実用的なアプリケーションで測定することに焦点を当てています。この研究は、ソフトウェアエンジニアリング、医療、金融、サイバーセキュリティなどの多様な分野で活用される際に、これらのエージェントがどれほど自律的になり得るかを調査しています。

主な発見

Claude Codeの自律性の向上: 研究では、Claude Codeのセッション時間が3か月で約45分以上とほぼ倍増しており、自律性の能力が高まっていることが示されました。
経験豊富なユーザーと自動承認機能: Claude Codeのユーザーは時間の経過とともに自動承認機能を使用する傾向が強まり、経験豊富なユーザーは必要な場合を除き、介入を減らしています。
エージェント主導の明確化: Claude Codeは、特に複雑なタスク中に、ユーザーによる中断よりも頻繁に一時停止して明確化を求めており、曖昧さを独立して管理する能力を示しています。
分野別の使用状況とリスクレベル: 現在のAIエージェントの行動は、ほとんどが低リスクで元に戻せるものであり、ソフトウェアエンジニアリングでの使用が顕著（活動のほぼ50％を占める）で、医療、金融、サイバーセキュリティでの新たな機能が出現しています。