Автономность AI-агентов: исследование Anthropic Claude Code

Исследование Anthropic сосредоточено на измерении автономии искусственных агентов, таких как Claude Code, в практических приложениях. Это исследование изучает, насколько автономными могут стать эти агенты, когда их используют в различных областях, включая разработку программного обеспечения, здравоохранение, финансы и кибербезопасность.

Ключевые выводы

Увеличение автономии у Claude Code: В исследовании было отмечено, что продолжительность сессий Claude Code почти удвоилась до более чем 45 минут за три месяца, что указывает на возросшую способность к автономии.
Опытные пользователи и функция авто-одобрения: Пользователи Claude Code со временем становятся более склонными использовать функцию авто-одобрения, при этом опытные пользователи реже вмешиваются, за исключением необходимости.
Инициированные агентом уточнения: Claude Code чаще останавливается для получения уточнений, чем его прерывают пользователи, особенно во время сложных задач, демонстрируя свою способность управлять неоднозначностью самостоятельно.
Использование в различных областях и уровни риска: Действия текущих искусственных агентов в основном имеют низкий риск и обратимы, с значительным использованием в разработке программного обеспечения (почти 50% всех действий) и новыми функциями в здравоохранении, финансах и кибербезопасности.

Методология

Исследование подошло к анализу агентов ИИ, разбивая использование инструментов через их публичный API и прямые данные от Claude Code. Они использовали метрики для отслеживания операций без восстановления целых сессий, предлагая подробный обзор взаимодействий отдельных инструментов.

Понимание автономности AI-агентов в реальных приложениях

Ключевые выводы

Методология

Рекомендации для разработчиков

👀 Смотрите также

Использование Claude Code/Codex совместно с OpenClaw для структурированной оптимизации игр на Steam Deck

Клод Код написал каждую строку видео запуска 50-х годов в Remotion — но на это ушло ~100 запросов

Claude AI использовался для автоматизации исследования и ранжирования стартапов YC W26.

Использование Claude для автоматизации обновления метаданных App Store Connect на 33 языках