ИИ-агенты: исследование 3000 экспериментов с Claude, GPT-4o, Llama

Результаты исследования согласованности агентов

Исследование, опубликованное на r/ClaudeAI, рассматривает критическую проблему в разработке ИИ-агентов: самопротиворечивость, когда агенты дают разные ответы на идентичные задачи. В исследовании было проведено 3000 экспериментов с одинаковыми промптами и входными данными на трёх основных моделях.

Ключевые показатели эффективности

Согласованные агенты достигли точности 80–92%
Точность несогласованных агентов упала до 25–60%
Это разрыв в производительности на 32–55 пунктов

Паттерны расхождений

Исследование выявило конкретные паттерны в несогласованности агентов:

69% расхождений происходит при самом первом вызове инструмента
Начальные поисковые запросы являются критической точкой сбоя
Правильные начальные вызовы приводят к последующей сходимости
Неправильные начальные вызовы вызывают рассеивание запусков

Практические диагностические сигналы

Длина пути служит дешёвым диагностическим сигналом: агенты, выполняющие 8 шагов для 3-шаговой задачи, обычно заблудились, а не проявляют тщательность.

Ресурсы исследования

Полная статья доступна по адресу https://arxiv.org/abs/2602.11619 с подробным описанием на https://amcortex.substack.com/p/run-your-agent-10-times-you-wont.

📖 Read the full source: r/ClaudeAI

Исследование согласованности ИИ-агентов: ключевые выводы и практические рекомендации

Результаты исследования согласованности агентов

Ключевые показатели эффективности

Паттерны расхождений

Практические диагностические сигналы

Рекомендация по немедленному тестированию

Ресурсы исследования

👀 Смотрите также

Условия контракта OpenAI с Пентагоном разрешают «любое законное использование», включая потенциальную слежку

Исследование Стэнфорда: профессора права предпочитают ответы ИИ ответам коллег в 75% случаев

Искусственный интеллект Claude демонстрирует ошибку повторения термина «Sketcher» в рабочем процессе QGIS.

Claude Code 2.1.84 добавляет универсальный агентный промпт и инструмент PowerShell, удаляет избыточные промпты.