Opus 4.7 усилия рассуждений: Средний превосходит Высокий

Пользователь Reddit ktane протестировал Claude Opus 4.7 в Claude Code на пяти уровнях усилий рассуждений (низкий, средний, высокий, очень высокий, максимальный) на 29 реальных задачах из открытого репозитория GraphQL-go-tools. Результат: средний уровень усилий последовательно превосходит более высокие настройки по доле прохождения тестов, семантической эквивалентности с человеческими патчами, доле прохождения ревью кода и агрегированным показателям мастерства/дисциплины.

Ключевые результаты

Доля прохождения всех задач: Средний 28/29, Макс 27/29, Высокий 26/29, Очень высокий 25/29, Низкий 23/29
Эквивалентные патчи: Средний 14/29, Макс 13/29, Высокий 12/29, Очень высокий 11/29, Низкий 10/29
Доля прохождения ревью кода: Средний 10/29, Высокий 7/29, Макс 8/29, Очень высокий 4/29, Низкий 5/29
Средняя оценка ревью кода: Средний 2.716, Высокий 2.509, Очень высокий 2.482, Макс 2.431, Низкий 2.426
Риск footprint (чем ниже, тем лучше): Низкий 0.155, Средний 0.189, Высокий 0.206, Макс 0.227, Очень высокий 0.238
Стоимость за задачу: Низкий $2.50, Средний $3.15, Высокий $5.01, Очень высокий $6.51, Макс $8.84
Длительность за задачу: Низкий 383.8с, Средний 450.7с, Высокий 716.4с, Очень высокий 803.8с, Макс 996.9с
Эквивалентные прохождения на доллар: Низкий 4.0, Средний 4.4, Высокий 2.4, Очень высокий 1.7, Макс 1.5

Автор отмечает, что Opus 4.7 использует адаптивное мышление — он уже распределяет бюджет рассуждений на задачу. Таким образом, регулятор усилий скорее смещает и без того адаптивную политику, а не добавляет чистого интеллекта. Примечательно, что в одном PR (#1260) настройки высокого и очень высокого уровня впустую потратили рассуждения на поиск хешей коммитов из предыдущих PR и заключили «работа не требуется», в то время как средний и максимальный уровни корректно прочитали поток управления и выдали исправление.

Это контрастирует с GPT-5.5 в Codex, который показал интуитивную монотонную кривую, где большее количество рассуждений улучшало качество. Полный интерактивный отчет с детализацией по каждой задаче доступен на stet.sh.

📖 Read the full source: r/ClaudeAI

Бенчмарк усилий рассуждения Opus 4.7: Средний превосходит Высокий и Максимум в реальных задачах

Ключевые результаты

👀 Смотрите также

Claude Code v2.1.195: Исправление Hook Matcher, переменная окружения для отключения мыши, исправления голосового ввода

Claude Code 2.1.84 добавляет универсальный агентный промпт и инструмент PowerShell, удаляет избыточные промпты.

Открытый стандарт записей выполнения агентов: аргументы в пользу единой схемы журнала

Опасно пропускать чтение кода: когда LLM пишут код быстрее, чем вы можете его прочитать