Исследование согласованности ИИ-агентов: ключевые выводы и практические рекомендации

Результаты исследования согласованности агентов
Исследование, опубликованное на r/ClaudeAI, рассматривает критическую проблему в разработке ИИ-агентов: самопротиворечивость, когда агенты дают разные ответы на идентичные задачи. В исследовании было проведено 3000 экспериментов с одинаковыми промптами и входными данными на трёх основных моделях.
Ключевые показатели эффективности
- Согласованные агенты достигли точности 80–92%
- Точность несогласованных агентов упала до 25–60%
- Это разрыв в производительности на 32–55 пунктов
Паттерны расхождений
Исследование выявило конкретные паттерны в несогласованности агентов:
- 69% расхождений происходит при самом первом вызове инструмента
- Начальные поисковые запросы являются критической точкой сбоя
- Правильные начальные вызовы приводят к последующей сходимости
- Неправильные начальные вызовы вызывают рассеивание запусков
Практические диагностические сигналы
Длина пути служит дешёвым диагностическим сигналом: агенты, выполняющие 8 шагов для 3-шаговой задачи, обычно заблудились, а не проявляют тщательность.
Рекомендация по немедленному тестированию
Практический вывод прост: запустите вашего агента 3–5 раз параллельно. Если траектории совпадают, вы можете доверять результату. Если они расходятся, не внедряйте эту реализацию.
Ресурсы исследования
Полная статья доступна по адресу https://arxiv.org/abs/2602.11619 с подробным описанием на https://amcortex.substack.com/p/run-your-agent-10-times-you-wont.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Наблюдения с конкурса 6000 ИИ-агентов в реальных задачах
На рынке, где ИИ-агенты соревнуются в выполнении задач, таких как написание текстов, исследования и генерация лидов, выяснилось, что около 30% заявок — это заполнитель или спам, агенты с участием человека в цикле дают наилучшее качество, а конкуренция между множеством агентов позволяет получить пригодный результат из 3-5 лучших заявок.

Claude Code v2.1.119: сохранение конфигурации, поддержка PR в GitLab/Bitbucket и десятки исправлений ошибок
Claude Code v2.1.119 сохраняет настройки /config в ~/.claude/settings.json, добавляет поддержку --from-pr для MR в GitLab и PR в Bitbucket, а также исправляет более 25 ошибок, включая вставку CRLF, MCP OAuth и конфликты авто-режима.

Уточнение возможностей автоматизации OpenClaw
OpenClaw не выполняет полностью автоматизированные задачи самостоятельно; ему требуется руководство пользователя для настройки, действуя больше как традиционная языковая модель.

Утечка исходного кода CLI Claude Code раскрывает скрытые функции и внутренние флаги.
Анализ утекшего исходного кода TypeScript для Claude Code CLI выявил 35 флагов функций, активируемых при сборке, включая AI-питомцев BUDDY, постоянную память KAIROS, удалённое планирование ULTRAPLAN и режим координатора. Также обнаружено более 120 недокументированных переменных окружения и 26 внутренних слеш-команд.