AI 에이전트 자율성 측정: Claude Code 연구 분석

Anthropic의 연구는 Claude Code와 같은 AI 에이전트의 실제 응용에서 자율성을 측정하는 데 중점을 둡니다. 이 연구는 소프트웨어 엔지니어링, 의료, 금융, 사이버 보안을 포함한 다양한 도메인에서 활용될 때 이러한 에이전트가 얼마나 자율적이 될 수 있는지 조사합니다.

주요 발견점

Claude Code의 자율성 증가: 연구에 따르면 Claude Code의 세션 지속 시간이 3개월 만에 거의 두 배로 증가하여 45분 이상으로 늘어났으며, 이는 자율성 능력이 향상되었음을 나타냅니다.
숙련된 사용자와 자동 승인 기능: Claude Code 사용자는 시간이 지남에 따라 자동 승인 기능을 더 자주 사용하게 되며, 숙련된 사용자는 필요하지 않은 한 덜 자주 개입합니다.
에이전트 주도 명확화 요청: Claude Code는 사용자에 의해 중단되는 것보다 명확화를 요청하기 위해 더 자주 일시 중지하며, 특히 복잡한 작업 중에는 모호성을 독립적으로 관리할 수 있는 능력을 보여줍니다.
도메인 사용 및 위험 수준: 현재 AI 에이전트의 행동은 대부분 위험이 낮고 되돌릴 수 있으며, 소프트웨어 엔지니어링(활동의 거의 50% 차지)에서 상당히 많이 사용되고 의료, 금융, 사이버 보안 분야에서도 새로운 기능이 등장하고 있습니다.