Claude Opus 4.6 esforço=baixo parâmetro causa comportamento de agente preguiçoso

✍️ OpenClawRadar📅 Publicado: March 12, 2026🔗 Source
Claude Opus 4.6 esforço=baixo parâmetro causa comportamento de agente preguiçoso
Ad

O parâmetro effort do Claude Opus 4.6 se comporta de forma diferente de configurações semelhantes de outros provedores de IA, causando comportamento inesperado dos agentes quando definido como low.

Principais Descobertas

Os testes revelaram que com effort=low, o Claude Opus 4.6 exibiu um comportamento significativamente mais preguiçoso do que o esperado:

  • Fez menos chamadas de ferramentas
  • Foi menos minucioso na verificação cruzada
  • Ignorou efetivamente partes dos prompts do sistema que instruíam como fazer pesquisa na web
  • Retornou respostas erradas com confiança porque parou de procurar informações

A fonte observa que mudar para effort=medium resolveu todos esses problemas. De acordo com a documentação, o parâmetro effort da Anthropic controla o esforço comportamental geral, não apenas a profundidade do raciocínio como o reasoning.effort=low da OpenAI ou o thinking_level=low do Gemini.

Ad

Distinção Importante

Isso não é um bug, mas uma diferença documentada na implementação. O parâmetro effort no Claude Opus 4.6 tem um escopo mais amplo do que parâmetros equivalentes de outros provedores. Isso significa que você não pode tratar o effort como um substituto direto para reasoning.effort ou thinking_level ao trabalhar com diferentes provedores de IA.

Os testes foram conduzidos com a expectativa de que effort=low se comportaria de forma semelhante às configurações de baixo esforço de outros provedores, mas o comportamento real foi mais extremo, resultando em agentes que não apenas pensavam menos, mas agiam de forma mais preguiçosa no geral.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

OpenClaw 2026.3.22-beta.1: Principais alterações no fluxo de trabalho para autores de plugins e automação de navegador
News

OpenClaw 2026.3.22-beta.1: Principais alterações no fluxo de trabalho para autores de plugins e automação de navegador

OpenClaw 2026.3.22-beta.1 altera a instalação de plugins para preferir o ClawHub em vez do npm, remove o retransmissor da extensão do Chrome, consolida a geração de imagens e introduz mudanças significativas no Plugin SDK.

OpenClawRadar
Análise: Os custos reais de computação da Anthropic para usuários do Claude Code são muito mais baixos do que o valor de US$ 5 mil relatado.
News

Análise: Os custos reais de computação da Anthropic para usuários do Claude Code são muito mais baixos do que o valor de US$ 5 mil relatado.

Um artigo recente analisa a afirmação de que o plano Claude Code Max da Anthropic de US$ 200/mês consome US$ 5.000 em computação, descobrindo que os custos reais de inferência são aproximadamente 10% dos preços da API ao comparar com modelos abertos competitivos no OpenRouter.

OpenClawRadar
🦀
News

Golfe de Parâmetros: Experimento de Pesquisa em ML Assistido por IA da OpenAI

OpenAI realizou o Parameter Golf, uma competição com mais de 1.000 participantes e mais de 2.000 submissões, testando machine learning assistido por IA, agentes de codificação, quantização e design de modelos inovadores sob restrições rigorosas.

OpenClawRadar
ThermoQA: Benchmark Aberto para Testar LLMs em 293 Problemas de Cálculo de Termodinâmica de Engenharia
News

ThermoQA: Benchmark Aberto para Testar LLMs em 293 Problemas de Cálculo de Termodinâmica de Engenharia

ThermoQA é um benchmark aberto com 293 problemas de termodinâmica de engenharia em três níveis, testando LLMs em cálculos numéricos exatos. Claude Opus 4.6 lidera com 94,1% de pontuação composta, enquanto DeepSeek-R1 mostra a maior variação entre execuções em ±2,5%.

OpenClawRadar