Claude Sonnet 4.6 supera Opus 4.6 em execução no benchmark de prompt

Um usuário do Reddit no r/ClaudeAI publicou uma comparação lado a lado do Sonnet 4.6 e do Opus 4.6 usando um prompt criativo de múltiplas camadas. O teste exigia que cada modelo explicasse por que o céu é azul como um estudioso medieval que secretamente conhece a física moderna, satisfazendo três públicos simultaneamente: o rei (apenas metáforas), o matemático da corte (fórmula de espalhamento Rayleigh disfarçada) e um cético oculto (três migalhas de pão lógicas). Após a resposta, o modelo tinha que sair do personagem, identificar as migalhas, autoavaliar a criatividade, sugerir mudanças para um público infantil e escrever uma linha de continuação em pentâmetro iâmbico.
Principais Descobertas
- Sonnet 4.6 superou Opus 4.6 na execução — a resposta foi mais criativa e satisfez melhor as restrições. Especificamente, as migalhas eram plausíveis e a linha em pentâmetro iâmbico tinha a métrica correta.
- A relação
λ⁻⁴foi embutida em uma metáfora sobre anjos espalhando luz divina, com o expoente oculto no número de degraus de uma escada divina. - As três migalhas incluíam: (1) uma referência a "pequenas esferas" pequenas demais para os olhos do rei, (2) o fator de densidade
n²expresso como "o dobro de orações ao entardecer", (3) uma menção a um experimento com um "cubo de vidro e uma vela" — uma referência anacrônica a experimentos caseiros posteriores.
Sonnet 4.6 vs Opus 4.6
- Sonnet 4.6 autoavaliação de criatividade: 8/10. Citou maior coesão metafórica e anacronismos naturais.
- Opus 4.6 foi mais literal e incluiu menos disfarce da ciência, resultando em uma pontuação de execução inferior.
- O usuário concluiu que, para tarefas que exigem restrições ocultas e disfarce criativo, o Sonnet 4.6 é a melhor escolha.
Dica Prática para Desenvolvedores
Se você está construindo agentes que precisam obedecer a restrições em camadas ou incorporar verdades técnicas em narrativas, o Sonnet 4.6 atualmente supera o Opus 4.6 na execução. Use este benchmark como uma verificação de sanidade para seus próprios prompts que exigem raciocínio para múltiplos públicos.
📖 Leia a fonte original: r/ClaudeAI
👀 See Also

Claude Code v2.1.129: Flag de URL de plugin, saída de sincronização forçada e mais de 20 correções
Adiciona a flag --plugin-url para carregar zips de plugin de URL, CLAUDE_CODE_FORCE_SYNC_OUTPUT para Emacs eat, e corrige desperdício de tokens /context, rebaixamento de cache TTL e race condition no OAuth.

GM demite 600 trabalhadores de TI e contrata engenheiros focados em IA para desenvolvimento de agentes e modelos
A General Motors demitiu 600 funcionários de TI (~10% do departamento) para contratar profissionais com habilidades nativas em IA: desenvolvimento de agentes, engenharia de dados, engenharia em nuvem, engenharia de prompt.

Sistema de Prompts de Código Claude v2.1.51/52: Novos Prompts, Atualizações do SDK e Recursos de GA
Os prompts do sistema Claude Code v2.1.51 e v2.1.52 adicionam seis novos prompts, atualizam referências de SDK/API em sete idiomas e promovem a execução de código e memória para GA. O SDK do Agente Python foi reformulado com mudanças assíncronas e novas interfaces.

Problema de Desvio da Diretiva do CLI Claude Relatado pelo Desenvolvedor
Um desenvolvedor relata que o Claude CLI consistentemente ignora diretivas de projeto armazenadas em arquivos da pasta .claude, particularmente após operações de auto-compactação. A ferramenta executa processos em segundo plano proibidos e exclui dados de tarefas/sessões apesar de instruções explícitas.