Параметр Claude Opus 4.6 effort=low вызывает ленивое поведение агента.

Параметр effort в Claude Opus 4.6 работает иначе, чем аналогичные настройки у других поставщиков ИИ, что приводит к неожиданному поведению агентов при установке на низкий уровень.
Ключевые выводы
Тестирование показало, что при effort=low Claude Opus 4.6 демонстрировал значительно более ленивое поведение, чем ожидалось:
- Совершал меньше вызовов инструментов
- Был менее тщательным в перекрёстной проверке
- Фактически игнорировал части системных промптов с инструкциями по веб-исследованиям
- Уверенно возвращал неправильные ответы, потому что прекращал поиск информации
В источнике отмечается, что переход на effort=medium устранил все эти проблемы. Согласно документации, параметр effort у Anthropic контролирует общие поведенческие усилия, а не только глубину рассуждений, как reasoning.effort=low у OpenAI или thinking_level=low у Gemini.
Важное различие
Это не ошибка, а задокументированная разница в реализации. Параметр effort в Claude Opus 4.6 имеет более широкий охват, чем аналогичные параметры у других поставщиков. Это означает, что нельзя рассматривать effort как прямую замену reasoning.effort или thinking_level при работе с разными поставщиками ИИ.
Тестирование проводилось с ожиданием, что effort=low будет вести себя аналогично настройкам низких усилий у других поставщиков, но фактическое поведение оказалось более крайним, что привело к агентам, которые не просто меньше думали, а действовали ленивее в целом.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Текущее состояние китайских больших языковых моделей: лидеры рынка, открытые модели и бизнес-модели
Анализ на Reddit описывает ландшафт китайских больших языковых моделей (LLM), определяя Doubao от ByteDance как лидера на рынке проприетарных моделей, а DeepSeek — как самую инновационную компанию. В отчёте также изложены бизнес-модели основных игроков и «Шести AI-тигрят», которые сосредоточены на моделях с открытыми весами.

Клауд-Код v2.1.30 выпущен с улучшениями для PDF и OAuth
Claude-Code v2.1.30 представляет улучшения в чтении PDF, предварительно настроенный OAuth для серверов MCP, а также несколько исправлений и улучшений.

Два исследовательских проекта ставят под сомнение имитационное обучение для веб-агентов
Два исследовательских проекта демонстрируют ограничения обучения веб-агентов исключительно на имитации: 'Browser in the Loop' использует обучение с подкреплением с моделью на 8 миллиардов параметров для повышения успешности отправки форм, в то время как 'Concentrate or Collapse' показывает, что стандартное обучение с подкреплением не работает с диффузионными языковыми моделями, требуя оптимизации на уровне последовательностей.

Два сбоя ИИ в одной демонстрации: Claude Code исправляет орфографию вместо ошибки схемы, OpenAI путает сопоставление пользовательских полей
Во время живого семинара Claude Code проигнорировал ошибку валидации JSON-схемы, чтобы исправить предупреждения об орфографии, а OpenAI при первой попытке сопоставления странных пользовательских полей Salesforce выдал мусор.