Понимание автономности AI-агентов в реальных приложениях

Исследование Anthropic сосредоточено на измерении автономии искусственных агентов, таких как Claude Code, в практических приложениях. Это исследование изучает, насколько автономными могут стать эти агенты, когда их используют в различных областях, включая разработку программного обеспечения, здравоохранение, финансы и кибербезопасность.
Ключевые выводы
- Увеличение автономии у Claude Code: В исследовании было отмечено, что продолжительность сессий Claude Code почти удвоилась до более чем 45 минут за три месяца, что указывает на возросшую способность к автономии.
- Опытные пользователи и функция авто-одобрения: Пользователи Claude Code со временем становятся более склонными использовать функцию авто-одобрения, при этом опытные пользователи реже вмешиваются, за исключением необходимости.
- Инициированные агентом уточнения: Claude Code чаще останавливается для получения уточнений, чем его прерывают пользователи, особенно во время сложных задач, демонстрируя свою способность управлять неоднозначностью самостоятельно.
- Использование в различных областях и уровни риска: Действия текущих искусственных агентов в основном имеют низкий риск и обратимы, с значительным использованием в разработке программного обеспечения (почти 50% всех действий) и новыми функциями в здравоохранении, финансах и кибербезопасности.
Методология
Исследование подошло к анализу агентов ИИ, разбивая использование инструментов через их публичный API и прямые данные от Claude Code. Они использовали метрики для отслеживания операций без восстановления целых сессий, предлагая подробный обзор взаимодействий отдельных инструментов.
Рекомендации для разработчиков
Для обеспечения эффективного контроля над развертыванием ИИ исследование подчеркивает необходимость в новых структурах мониторинга после развертывания и передовых парадигмах взаимодействия человека и ИИ. Это позволило бы упростить управление совместной автономией и смягчить риски, связанные с использованием искусственных агентов.
📖 Читать источник: HN AI Agents
👀 Смотрите также

Использование Claude Code/Codex совместно с OpenClaw для структурированной оптимизации игр на Steam Deck
Пользователь Reddit делится рабочим процессом, использующим Claude Code/Codex в качестве помощников по оптимизации и OpenClaw в качестве уровня оркестрации, чтобы превратить настройку игр на Steam Deck из случайных подборов в повторяемый структурированный процесс.
Клод Код написал каждую строку видео запуска 50-х годов в Remotion — но на это ушло ~100 запросов
Разработчик подробно рассказывает, как использовал Claude Code для генерации каждой строки TypeScript/TSX для рекламного видео Remotion. Процесс потребовал ~100 промптов, подробного креативного брифа, итераций по сценам и частых git diff.

Claude AI использовался для автоматизации исследования и ранжирования стартапов YC W26.
Пользователь Reddit автоматизировал исследование для венчурных ассоциатов, поручив Claude изучить каждый стартап из YC W26 и оценить их по критериям: достоверность основателей, реальность продукта, рыночные возможности и конкуренция, присвоив рейтинги от S до D.

Использование Claude для автоматизации обновления метаданных App Store Connect на 33 языках
Независимый iOS-разработчик использовал Claude (через чат) для создания Python-скрипта, который аутентифицируется с API App Store Connect, переводит метаданные на 33 языка и отправляет локализованный текст "Что нового" — заменяя часы ручной работы при каждом обновлении.