Бенчмарк усилий рассуждения Opus 4.7: Средний превосходит Высокий и Максимум в реальных задачах
Пользователь Reddit ktane протестировал Claude Opus 4.7 в Claude Code на пяти уровнях усилий рассуждений (низкий, средний, высокий, очень высокий, максимальный) на 29 реальных задачах из открытого репозитория GraphQL-go-tools. Результат: средний уровень усилий последовательно превосходит более высокие настройки по доле прохождения тестов, семантической эквивалентности с человеческими патчами, доле прохождения ревью кода и агрегированным показателям мастерства/дисциплины.
Ключевые результаты
- Доля прохождения всех задач: Средний 28/29, Макс 27/29, Высокий 26/29, Очень высокий 25/29, Низкий 23/29
- Эквивалентные патчи: Средний 14/29, Макс 13/29, Высокий 12/29, Очень высокий 11/29, Низкий 10/29
- Доля прохождения ревью кода: Средний 10/29, Высокий 7/29, Макс 8/29, Очень высокий 4/29, Низкий 5/29
- Средняя оценка ревью кода: Средний 2.716, Высокий 2.509, Очень высокий 2.482, Макс 2.431, Низкий 2.426
- Риск footprint (чем ниже, тем лучше): Низкий 0.155, Средний 0.189, Высокий 0.206, Макс 0.227, Очень высокий 0.238
- Стоимость за задачу: Низкий $2.50, Средний $3.15, Высокий $5.01, Очень высокий $6.51, Макс $8.84
- Длительность за задачу: Низкий 383.8с, Средний 450.7с, Высокий 716.4с, Очень высокий 803.8с, Макс 996.9с
- Эквивалентные прохождения на доллар: Низкий 4.0, Средний 4.4, Высокий 2.4, Очень высокий 1.7, Макс 1.5
Автор отмечает, что Opus 4.7 использует адаптивное мышление — он уже распределяет бюджет рассуждений на задачу. Таким образом, регулятор усилий скорее смещает и без того адаптивную политику, а не добавляет чистого интеллекта. Примечательно, что в одном PR (#1260) настройки высокого и очень высокого уровня впустую потратили рассуждения на поиск хешей коммитов из предыдущих PR и заключили «работа не требуется», в то время как средний и максимальный уровни корректно прочитали поток управления и выдали исправление.
Это контрастирует с GPT-5.5 в Codex, который показал интуитивную монотонную кривую, где большее количество рассуждений улучшало качество. Полный интерактивный отчет с детализацией по каждой задаче доступен на stet.sh.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также
Мнение UX-дизайнера: Дизайн Claude не может заменить опытных дизайнеров
UX-дизайнер утверждает, что Claude Design переоценен и полезен только для не-дизайнеров, чтобы прототипировать идеи, начинающих стартапов и портфолио для новичков.

Клод возглавил чарты App Store на фоне противостояния с правительством
Приложение Claude от Anthropic поднялось с 42-го на 1-е место в чарте самых скачиваемых приложений в американском App Store, оставив ChatGPT и Gemini на втором и третьем местах. Этот скачок произошел после публичного разногласия между Anthropic и правительством США по поводу военного и разведывательного использования технологий ИИ.

Старший правительственный руководитель по ИИ не осведомлён о местных LLM: рассказ разработчика
Разработчик локальных LLM сообщает, что старший правительственный ИИ-лидер не понимал, почему бизнес предпочитает локальные LLM облачным API, несмотря на понимание технических основ.

Статья Клода Шеннона 1950 года о шахматах предсказала ключевую проблему GenAI: угадывание против знания
Статья Шеннона о шахматах 1950 года сформулировала основную проблему ИИ: принятие «сносно хороших» решений в условиях неопределенности — именно эту проблему сегодня решает генеративный ИИ, когда выдает отполированные, но неверные ответы.