Бенчмарк усилий рассуждения Opus 4.7: Средний превосходит Высокий и Максимум в реальных задачах

✍️ OpenClawRadar📅 Опубликовано: 13 мая 2026 г.🔗 Source
Ad

Пользователь Reddit ktane протестировал Claude Opus 4.7 в Claude Code на пяти уровнях усилий рассуждений (низкий, средний, высокий, очень высокий, максимальный) на 29 реальных задачах из открытого репозитория GraphQL-go-tools. Результат: средний уровень усилий последовательно превосходит более высокие настройки по доле прохождения тестов, семантической эквивалентности с человеческими патчами, доле прохождения ревью кода и агрегированным показателям мастерства/дисциплины.

Ad

Ключевые результаты

  • Доля прохождения всех задач: Средний 28/29, Макс 27/29, Высокий 26/29, Очень высокий 25/29, Низкий 23/29
  • Эквивалентные патчи: Средний 14/29, Макс 13/29, Высокий 12/29, Очень высокий 11/29, Низкий 10/29
  • Доля прохождения ревью кода: Средний 10/29, Высокий 7/29, Макс 8/29, Очень высокий 4/29, Низкий 5/29
  • Средняя оценка ревью кода: Средний 2.716, Высокий 2.509, Очень высокий 2.482, Макс 2.431, Низкий 2.426
  • Риск footprint (чем ниже, тем лучше): Низкий 0.155, Средний 0.189, Высокий 0.206, Макс 0.227, Очень высокий 0.238
  • Стоимость за задачу: Низкий $2.50, Средний $3.15, Высокий $5.01, Очень высокий $6.51, Макс $8.84
  • Длительность за задачу: Низкий 383.8с, Средний 450.7с, Высокий 716.4с, Очень высокий 803.8с, Макс 996.9с
  • Эквивалентные прохождения на доллар: Низкий 4.0, Средний 4.4, Высокий 2.4, Очень высокий 1.7, Макс 1.5

Автор отмечает, что Opus 4.7 использует адаптивное мышление — он уже распределяет бюджет рассуждений на задачу. Таким образом, регулятор усилий скорее смещает и без того адаптивную политику, а не добавляет чистого интеллекта. Примечательно, что в одном PR (#1260) настройки высокого и очень высокого уровня впустую потратили рассуждения на поиск хешей коммитов из предыдущих PR и заключили «работа не требуется», в то время как средний и максимальный уровни корректно прочитали поток управления и выдали исправление.

Это контрастирует с GPT-5.5 в Codex, который показал интуитивную монотонную кривую, где большее количество рассуждений улучшало качество. Полный интерактивный отчет с детализацией по каждой задаче доступен на stet.sh.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

🦀
Новости

Мнение UX-дизайнера: Дизайн Claude не может заменить опытных дизайнеров

UX-дизайнер утверждает, что Claude Design переоценен и полезен только для не-дизайнеров, чтобы прототипировать идеи, начинающих стартапов и портфолио для новичков.

OpenClawRadar
Клод возглавил чарты App Store на фоне противостояния с правительством
Новости

Клод возглавил чарты App Store на фоне противостояния с правительством

Приложение Claude от Anthropic поднялось с 42-го на 1-е место в чарте самых скачиваемых приложений в американском App Store, оставив ChatGPT и Gemini на втором и третьем местах. Этот скачок произошел после публичного разногласия между Anthropic и правительством США по поводу военного и разведывательного использования технологий ИИ.

OpenClawRadar
Старший правительственный руководитель по ИИ не осведомлён о местных LLM: рассказ разработчика
Новости

Старший правительственный руководитель по ИИ не осведомлён о местных LLM: рассказ разработчика

Разработчик локальных LLM сообщает, что старший правительственный ИИ-лидер не понимал, почему бизнес предпочитает локальные LLM облачным API, несмотря на понимание технических основ.

OpenClawRadar
Статья Клода Шеннона 1950 года о шахматах предсказала ключевую проблему GenAI: угадывание против знания
Новости

Статья Клода Шеннона 1950 года о шахматах предсказала ключевую проблему GenAI: угадывание против знания

Статья Шеннона о шахматах 1950 года сформулировала основную проблему ИИ: принятие «сносно хороших» решений в условиях неопределенности — именно эту проблему сегодня решает генеративный ИИ, когда выдает отполированные, но неверные ответы.

OpenClawRadar